From 3956b8b3269ed76237706fd324134ec455c265b5 Mon Sep 17 00:00:00 2001 From: duzx16 Date: Thu, 27 Apr 2023 15:35:08 +0800 Subject: [PATCH] Update conversation data instruction --- ptuning/README.md | 45 ++++++--------------------------------------- 1 file changed, 6 insertions(+), 39 deletions(-) diff --git a/ptuning/README.md b/ptuning/README.md index 2c828b3..3aeb128 100644 --- a/ptuning/README.md +++ b/ptuning/README.md @@ -189,48 +189,15 @@ bash web_demo.sh ## 对话数据集 -如需要使用多轮对话数据对模型进行微调,可以提供聊天历史,例如 +如需要使用多轮对话数据对模型进行微调,可以提供聊天历史,例如以下是一个三轮对话的训练数据: -```json -{ - "prompt": "是的。上下水管都好的", - "response": "那就要检查线路了,一般风扇继电器是由电脑控制吸合的,如果电路存在断路,或者电脑坏了的话会出现继电器不吸合的情况!", - "history": [ - [ - "长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线", - "用电脑能读数据流吗?水温多少" - ], - [ - "95", - "上下水管温差怎么样啊?空气是不是都排干净了呢?" - ] - ] -} +```json lines +{"prompt": "长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线", "response": "用电脑能读数据流吗?水温多少", "history": []} +{"prompt": "95", "response": "上下水管温差怎么样啊?空气是不是都排干净了呢?", "history": [["长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线", "用电脑能读数据流吗?水温多少"]]} +{"prompt": "是的。上下水管都好的", "response": "那就要检查线路了,一般风扇继电器是由电脑控制吸合的,如果电路存在断路,或者电脑坏了的话会出现继电器不吸合的情况!", "history": [["长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线", "用电脑能读数据流吗?水温多少"], ["95", "上下水管温差怎么样啊?空气是不是都排干净了呢?"]]} ``` -训练时需要指定 `--history_column` 为数据中聊天历史的 key(在此例子中是 `history`),将自动把聊天历史拼接,例如: - -- Input - - ``` - [Round 0] - 问:长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线 - 答:用电脑能读数据流吗?水温多少 - [Round 1] - 问:95 - 答:上下水管温差怎么样啊?空气是不是都排干净了呢? - [Round 2] - 问:是的。上下水管都好的 - 答: - ``` - -- Label - - ``` - 那就要检查线路了,一般风扇继电器是由电脑控制吸合的,如果电路存在断路,或者电脑坏了的话会出现继电器不吸合的情况! - ``` - -要注意超过输入长度 `max_source_length` 的内容会被截。 +训练时需要指定 `--history_column` 为数据中聊天历史的 key(在此例子中是 `history`),将自动把聊天历史拼接。要注意超过输入长度 `max_source_length` 的内容会被截断。 可以参考以下指令: