首页 > 业界 > 关键词  > 对话模型最新资讯  > 正文

北大硕士基于DeepSpeed-Chat成功训练RLHF对话模型

2023-08-31 16:28 · 稿源:站长之家

站长之家(ChinaZ.com)8月31日 消息:最近,北大硕士通过DeepSpeed-Chat框架训练了一个RLHF对话模型。他在知乎分享了自己的实践过程,总结了原理,代码以及踩坑与解决方案。

在训练奖励模型时,作者使用Cohere提供的问答数据,构造了2万个优质答案和劣质答案的组合,通过排序任务训练奖励模型给答案打分。在强化学习阶段,作者采用Actor-Critic框架,分别训练策略模型、价值模型、参考模型和奖励模型。学习过程包含生成经验和更新模型两步。

image.png

在模型训练过程中,作者分享了一些常见错误和解决方法。主要问题有DeepSpeed引发的生成问题、强制最大长度造成的偏差、Critic loss发散等。他通过关闭引擎、修改最大长度、缩放奖励等方式解决了这些问题。最后作者还尝试了一些trick来提高模型性能,如归一化优势、增加策略熵、缩放奖励等。

通过解决 above 问题,作者最终成功地训练出了自己的RLHF对话模型。本文对RLHF在对话系统中的应用进行了较为系统和详细的介绍,对相关研究具有很好的参考价值。(感兴趣的可以点此查看原文

举报

  • 相关推荐
  • IQ 过百的 AI 模型名单发布:ChatGPTDeepseek等上榜

    人工智能IQ哪家强?o3 智商高达 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 凭借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

  • 奥特曼:ChatGPT不是AGI!OpenAI最强开源模型直击DeepSeek

    【新智元导读】代码截图泄露,满血版o3、o4-mini锁定下周!更劲爆的是,一款据称是OpenAI的神秘模型一夜爆红,每日处理高达260亿token,是Claude用量4倍。奥特曼在TED放话:将推超强开源模型,直面DeepSeek挑战。持续的创新、丰富的资源和智能AI将会无缝融入日常生活,未来一代人将会觉得当前人们又辛苦又落后。

  • DeepSeek上新!开源发布DeepSeek-Prover-V2-671B新模型

    快科技4月30日消息,今日,DeepSeek 今日在 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据介绍,DeepSeek-Prover-V2-671B 其参数量达到6710亿,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多种计算精度,方便模型更快、更省资源地训练和部署。在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提

  • DeepSeek带飞寒武纪

    寒武纪凭借AI芯片业务实现扭亏为盈,2024年首次实现上市后盈利,2025年Q1营收11.11亿元同比暴增4230%,净利润3.55亿元。这家曾连亏8年、累计亏损54亿元的"中国版英伟达",因美国对H20芯片出口管制获得市场红利,但客户集中度过高(前五大客户贡献94.63%营收)和现金流波动仍是隐忧。当前国产芯片迎来发展机遇,华为昇腾、壁仞等企业纷纷抢占市场,行业竞争日趋激烈。

  • 深度deepin 23.1正式发布!AI默认引擎切换至DeepSeek、修复超百项问题

    快科技4月16日消息,今天,深度操作系统宣布,deepin 23.1版本已正式发布。此版本聚焦于解决基础组件更新后的安装效率问题,大幅提升新用户安装体验,同时集成多项功能优化与问题修复,进一步优化系统使用。本次版本的重点改进包括内核优化、AI 默认引擎切换至DeepSeek、修复超百项用户反馈问题等,具体重点改进如下:硬件兼容性与内核优化:集成6.6/6.12内核更新、NVIDIA显卡驱动升级、Intel/AMD CPU微码更新,全面提升硬件支持与底层性能;核心功能增强:DDE新增智能镜像源管理、紧凑模式入口,全局搜索支持离线自然语言与AI处理能力;?

  • DeepSeek红利耗尽后,元宝拿什么和豆包斗?

    短短60天内,中国AI原生应用下载排行榜的位次排名,就三易其主。最新情况是,截至4月15日中午,中国区苹果应用商店免费APP下载排行榜上,豆包再次超越DeepSeek,位列第二,紧随其后的DeepSeek被挤到了第三的位置,腾讯元宝则滑落到了第七名。2月13日,作为首家在C端主力产品中接入DeepSeek-R1满血版的元宝,一度趁着DeepSeek东风崛起:3月3日力压DeepSeek和豆包,首度登顶。但好景�

  • OpenAI推出轻量版Deep Research,所有用户可用!

    OpenAI 称,由于很多用户喜欢使用 Deep Research 功能,所以将推出轻量版 Deep Research,且此版本面向所有用户开放……

  • DeepSeek爆火100天,大厂又找回初心了

    DeepSeek R1模型发布100天后,中国AI行业竞争格局被彻底重构。该模型3个月内用户突破1.9亿,成为国内最大AI原生应用。腾讯、百度等科技大厂纷纷接入,其中腾讯元宝APP借助DeepSeek流量一度登顶苹果应用下载榜。字节和阿里选择自研路线,字节推出"深度思考"功能,阿里则专注开源模型研发。随着DeepSeek热潮减退,豆包重回下载量榜首,元宝跌出前20。科技大厂在享受DeepSee

  • DeepSeek+物流行业,AI大模型破解五大场景效能困局

    文章探讨了AI大模型在物流行业的应用现状与挑战。以DeepSeek为代表的AI技术正通过重构业务流程、优化资源配置、提升决策效率等方式,成为推动行业降本增效的核心引擎。但成功应用AI大模型需要企业具备数字化基础、业务流程标准化和数据治理能力,而非简单技术堆砌。G7+易流梳理出五大核心应用场景:工作效能辅助、经营数据分析、安全审查、智能客服和知识管理。这些

  • DeepSeek领航大模型普惠化浪潮,xAI/微美全息加速开源AI布局打造新格局

    DeepSeek 作为当前最受关注的大模型之一,凭借其技术创新正在加速 AI 普惠化进程。根据机构新报告显示,DeepSeek已经成为全球增长最快的AI工具,其每月新增网站访问量已经超过OpenAI的ChatGPT。DeepSeek市场份额全球第三目前,DeepSeek市场份额6.58%,仅次于ChatGPT和Canva。DeepSeek是继ChatGPT之后的又一现象级AI产品,它的市场份额从2.34%快速增长至6.58%,展现出强劲的增长态势。全球著名�