站长之家(ChinaZ.com)8月31日 消息:最近,北大硕士通过DeepSpeed-Chat框架训练了一个RLHF对话模型。他在知乎分享了自己的实践过程,总结了原理,代码以及踩坑与解决方案。
在训练奖励模型时,作者使用Cohere提供的问答数据,构造了2万个优质答案和劣质答案的组合,通过排序任务训练奖励模型给答案打分。在强化学习阶段,作者采用Actor-Critic框架,分别训练策略模型、价值模型、参考模型和奖励模型。学习过程包含生成经验和更新模型两步。
在模型训练过程中,作者分享了一些常见错误和解决方法。主要问题有DeepSpeed引发的生成问题、强制最大长度造成的偏差、Critic loss发散等。他通过关闭引擎、修改最大长度、缩放奖励等方式解决了这些问题。最后作者还尝试了一些trick来提高模型性能,如归一化优势、增加策略熵、缩放奖励等。
通过解决 above 问题,作者最终成功地训练出了自己的RLHF对话模型。本文对RLHF在对话系统中的应用进行了较为系统和详细的介绍,对相关研究具有很好的参考价值。(感兴趣的可以点此查看原文)
(举报)