第一步：无监督预训练

通过大量的数据集训练，得到一个能进行文本生成的基座模型

注意，这里的文本生成并不是回答你的问题，而是基于问题生成一些内容，比如生成更多的问题。例如你问“法国的首都是哪里”，它的回答不是“巴黎”，而可能是“英国的首都是哪里”

为了解决这个问题，需要对基座模型进行微调。

第二步：监督微调Supervised Fine Tuning

通过人类撰写的高质量数据，对基座模型进行监督微调，得到微调后基座模型(SFT模型)。此时的模型除了续写文本之外，也会具备更好的对话能力。

第一步说过，生成的基座模型只能根据海量知识生成内容，并不能回答问题。因此第二步就是要给模型输入高质量的、专业的<问题，答案>形式的对话，让基座模型不只是根据问题生成相关的内容，而是要基于问题理解用户的意思，并且给出回答。

到这一步，如果你问“法国的首都是哪里”，它给出的答案可能是“巴黎”。

用问题和多个对应回答的数据，让人类标注员对回答质量进行排序，基于这些数据，训练出一个能对回答进行评分预测的奖励模型。

接下来，让第二步得到的微调后基座模型对问题生成回答，用奖励模型给回答进行评分，利用评分作为反馈，进行强化学习训练

Alex

https://www.zjxlyp.com/2024/03/14/52128.html

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Alex !

ChatGPT 训练

2024-03-14 数据库

mysql ICP 索引下推

2024-03-14 ai

ChatGPT 不准确