北大硕士基于DeepSpeed-Chat成功训练RLHF对话模型

2023-08-31 16:28 · 稿源：站长之家

站长之家（ChinaZ.com）8月31日消息:最近，北大硕士通过DeepSpeed-Chat框架训练了一个RLHF对话模型。他在知乎分享了自己的实践过程，总结了原理，代码以及踩坑与解决方案。

在训练奖励模型时，作者使用Cohere提供的问答数据，构造了2万个优质答案和劣质答案的组合，通过排序任务训练奖励模型给答案打分。在强化学习阶段，作者采用Actor-Critic框架，分别训练策略模型、价值模型、参考模型和奖励模型。学习过程包含生成经验和更新模型两步。

在模型训练过程中，作者分享了一些常见错误和解决方法。主要问题有DeepSpeed引发的生成问题、强制最大长度造成的偏差、Critic loss发散等。他通过关闭引擎、修改最大长度、缩放奖励等方式解决了这些问题。最后作者还尝试了一些trick来提高模型性能，如归一化优势、增加策略熵、缩放奖励等。

通过解决 above 问题，作者最终成功地训练出了自己的RLHF对话模型。本文对RLHF在对话系统中的应用进行了较为系统和详细的介绍，对相关研究具有很好的参考价值。（感兴趣的可以点此查看原文）

（举报）

相关推荐

关键词：

对话模型

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
免费！AI对话式搜索词挖掘工具，一键检测品牌在AI搜索中的可见度

本文探讨在AI搜索时代如何提升品牌、产品或内容的AI推荐可见度。关键在于挖掘AI对话式搜索词并优化内容，避免因未被AI抓取或排名靠后导致流量损失。推荐使用AIBase平台的GEO排名查询工具，免费检测品牌在主流AI搜索中的曝光度、排名及竞品对比，并提供优化建议，帮助抢占AI流量高地。该工具覆盖多平台，操作简单，适合企业、内容创作者及电商使用。

AI搜索品牌优化内容推荐
小米17 Pro妙享背屏对话翻译上线：正屏说中文背屏即时翻译

小米13 Pro系列近日上线妙享背屏对话翻译功能，实测对着手机说中文即可实时显示译文，效率很高。背屏还新增大头贴模式，支持拍摄动态照片，并加入多款动态壁纸。游戏方面新增植物合成与雪人推箱子两款休闲游戏，搭配复古风格保护壳，操作简洁有趣。作为核心亮点，背屏采用与主屏同源的龙晶玻璃，支持LTPO自适应刷新率，横向覆盖后摄模组，辨识度拉满。小米总裁卢伟冰表示，该系列大胆创新获用户积极反馈，下一代旗舰将继续沿用背屏设计并加大研发投入。

小米17Pro 妙享背屏对话翻译
小米17 Pro系列妙享背屏新功能上线：包括对话翻译、新游戏等

小米17系列妙享背屏功能将于10月29日正式上线，包含四大亮点：动态大头贴支持拍摄生动瞬间并新增明亮风格模板；对话翻译实现正屏输入、背屏即时显示译文；新增动态壁纸提升界面趣味性；配合游戏手机壳可畅玩《愤怒的小鸟》等经典游戏。该背屏还支持倒计时、音乐控制等实用功能，尺寸设计合理，投入超10亿元研发，体现小米对用户体验的重视。

小米17系列妙享背屏动态大头贴
易鑫正式发布汽车金融行业首个Agentic大模型

易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿，响应延迟低于200毫秒，支持语音实时交互，单卡吞吐达370 tokens/秒，可提升获客、风控与运营效率，解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台，研发投入超20亿元，率先实现AI全场景应用，将持续推动智能汽车金融生态建设。

汽车金融大模型易鑫
登榜LMArena！文心大模型5.0-Preview文本能力国内第一

11月8日，文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出，超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容；复杂长问题理解适用于学术问答、报告分析等任务；指令遵循能力支持智能助理、代码生成等场景，为多领域内容生产提供高效支撑。

文心模型 ERNIE-5.0 创意写作
机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM，实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用，通过统一“视频流+文本指令→动作轨迹”范式，融合800万条跨任务导航数据，在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施，为规模化商业落地奠定关键基础。

机器狗导航大模型 TrackVLA
荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

本期AI日报聚焦多领域创新：昆仑万维推出SkyReels V3模型，整合顶尖视频生成能力；月之暗面Kimi Linear模型处理长文本速度提升2.9倍；MiniMax Music 2.0实现专业级音乐创作；字节跳动启动豆包股权激励计划吸引AI人才；苹果iOS 27将迎AI重大升级，Siri更个性化；Dia浏览器融合Arc设计理念与AI技术；文心魔法漫画工具实现一键生成连载作品；谷歌Gemini Canvas新增PPT自动生成功能，由Gemini 2.5 Pro驱动，提升职场效率。

AI视频生成 SkyReels V3
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行

今日大家都在搜的词：

热文

3 天
7天

北大硕士基于DeepSpeed-Chat成功训练RLHF对话模型

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

免费！AI对话式搜索词挖掘工具，一键检测品牌在AI搜索中的可见度

小米17 Pro妙享背屏对话翻译上线：正屏说中文背屏即时翻译

小米17 Pro系列妙享背屏新功能上线：包括对话翻译、新游戏等

易鑫正式发布汽车金融行业首个Agentic大模型

登榜LMArena！文心大模型5.0-Preview文本能力国内第一

机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

今日大家都在搜的词：

热文

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

华为路由X3 Pro今日开启预售：售价1299元起

站长商机