3步练成一个chatgpt


第一步:无监督预训练

通过大量的数据集训练,得到一个能进行文本生成的基座模型

  • 海量知识

注意,这里的文本生成并不是回答你的问题,而是基于问题生成一些内容,比如生成更多的问题。例如你问“法国的首都是哪里”,它的回答不是“巴黎”,而可能是“英国的首都是哪里”

为了解决这个问题,需要对基座模型进行微调。

第二步:监督微调Supervised Fine Tuning

通过人类撰写的高质量数据,对基座模型进行监督微调,得到微调后基座模型(SFT模型)。此时的模型除了续写文本之外,也会具备更好的对话能力。

第一步说过,生成的基座模型只能根据海量知识生成内容,并不能回答问题。因此第二步就是要给模型输入高质量的、专业的<问题,答案>形式的对话,让基座模型不只是根据问题生成相关的内容,而是要基于问题理解用户的意思,并且给出回答。

到这一步,如果你问“法国的首都是哪里”,它给出的答案可能是“巴黎”。

第三步:训练奖励模型+强化学习训练

用问题和多个对应回答的数据,让人类标注员对回答质量进行排序,基于这些数据,训练出一个能对回答进行评分预测的奖励模型。

接下来,让第二步得到的微调后基座模型对问题生成回答,用奖励模型给回答进行评分,利用评分作为反馈,进行强化学习训练

参考

1]如何3步炼成一个ChatGPT?


文章作者: Alex
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Alex !
  目录