第一步:无监督预训练
通过大量的数据集训练,得到一个能进行文本生成的基座模型
- 海量知识
注意,这里的文本生成并不是回答你的问题,而是基于问题生成一些内容,比如生成更多的问题。例如你问“法国的首都是哪里”,它的回答不是“巴黎”,而可能是“英国的首都是哪里”
为了解决这个问题,需要对基座模型进行微调。
第二步:监督微调Supervised Fine Tuning
通过人类撰写的高质量数据,对基座模型进行监督微调,得到微调后基座模型(SFT模型)。此时的模型除了续写文本之外,也会具备更好的对话能力。
第一步说过,生成的基座模型只能根据海量知识生成内容,并不能回答问题。因此第二步就是要给模型输入高质量的、专业的<问题,答案>形式的对话,让基座模型不只是根据问题生成相关的内容,而是要基于问题理解用户的意思,并且给出回答。
到这一步,如果你问“法国的首都是哪里”,它给出的答案可能是“巴黎”。
第三步:训练奖励模型+强化学习训练
用问题和多个对应回答的数据,让人类标注员对回答质量进行排序,基于这些数据,训练出一个能对回答进行评分预测的奖励模型。
接下来,让第二步得到的微调后基座模型对问题生成回答,用奖励模型给回答进行评分,利用评分作为反馈,进行强化学习训练