首页 > 业界 > 关键词  > 对话模型最新资讯  > 正文

北大硕士基于DeepSpeed-Chat成功训练RLHF对话模型

2023-08-31 16:28 · 稿源:站长之家

站长之家(ChinaZ.com)8月31日 消息:最近,北大硕士通过DeepSpeed-Chat框架训练了一个RLHF对话模型。他在知乎分享了自己的实践过程,总结了原理,代码以及踩坑与解决方案。

在训练奖励模型时,作者使用Cohere提供的问答数据,构造了2万个优质答案和劣质答案的组合,通过排序任务训练奖励模型给答案打分。在强化学习阶段,作者采用Actor-Critic框架,分别训练策略模型、价值模型、参考模型和奖励模型。学习过程包含生成经验和更新模型两步。

image.png

在模型训练过程中,作者分享了一些常见错误和解决方法。主要问题有DeepSpeed引发的生成问题、强制最大长度造成的偏差、Critic loss发散等。他通过关闭引擎、修改最大长度、缩放奖励等方式解决了这些问题。最后作者还尝试了一些trick来提高模型性能,如归一化优势、增加策略熵、缩放奖励等。

通过解决 above 问题,作者最终成功地训练出了自己的RLHF对话模型。本文对RLHF在对话系统中的应用进行了较为系统和详细的介绍,对相关研究具有很好的参考价值。(感兴趣的可以点此查看原文

举报

  • 相关推荐
  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 免费!AI对话式搜索词挖掘工具,一键检测品牌在AI搜索中的可见度

    本文探讨在AI搜索时代如何提升品牌、产品或内容的AI推荐可见度。关键在于挖掘AI对话式搜索词并优化内容,避免因未被AI抓取或排名靠后导致流量损失。推荐使用AIBase平台的GEO排名查询工具,免费检测品牌在主流AI搜索中的曝光度、排名及竞品对比,并提供优化建议,帮助抢占AI流量高地。该工具覆盖多平台,操作简单,适合企业、内容创作者及电商使用。

  • 小米17 Pro妙享背屏对话翻译上线:正屏说中文 背屏即时翻译

    小米13 Pro系列近日上线妙享背屏对话翻译功能,实测对着手机说中文即可实时显示译文,效率很高。背屏还新增大头贴模式,支持拍摄动态照片,并加入多款动态壁纸。游戏方面新增植物合成与雪人推箱子两款休闲游戏,搭配复古风格保护壳,操作简洁有趣。作为核心亮点,背屏采用与主屏同源的龙晶玻璃,支持LTPO自适应刷新率,横向覆盖后摄模组,辨识度拉满。小米总裁卢伟冰表示,该系列大胆创新获用户积极反馈,下一代旗舰将继续沿用背屏设计并加大研发投入。

  • 小米17 Pro系列妙享背屏新功能上线:包括对话翻译、新游戏等

    小米17系列妙享背屏功能将于10月29日正式上线,包含四大亮点:动态大头贴支持拍摄生动瞬间并新增明亮风格模板;对话翻译实现正屏输入、背屏即时显示译文;新增动态壁纸提升界面趣味性;配合游戏手机壳可畅玩《愤怒的小鸟》等经典游戏。该背屏还支持倒计时、音乐控制等实用功能,尺寸设计合理,投入超10亿元研发,体现小米对用户体验的重视。

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

  • 机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

    银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM,实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用,通过统一“视频流+文本指令→动作轨迹”范式,融合800万条跨任务导航数据,在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施,为规模化商业落地奠定关键基础。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • 免费 GEO品牌可见度查询——让大模型信得过就这么玩

    本文探讨在AI时代如何成为大模型信赖的信息源。关键点包括:可信信息源需具备数据来源清晰、内容结构化、可验证追踪等能力;提出五大实操要点——确保数据干净可追溯、采用RAG等技术增强可检索性、保持内容更新与时效性、强化品牌可见度、建立反馈优化机制。同时推荐使用AIBase平台的GEO排名查询工具免费监测内容可见度,通过持续优化提升在大模型入口的推荐概率。

今日大家都在搜的词: