首页 > AI头条  > 正文

DeepSeek 与清华联合研究:创新奖励模型推理方法,提升可扩展性

2025-04-05 09:39 · 来源: AIbase基地

近日,DeepSeek 和清华的研究者发布新论文,探讨了奖励模型的推理时 Scaling 方法,让 DeepSeek R2似乎更近一步。目前,强化学习在大语言模型的大规模后训练阶段广泛应用,但面临为大语言模型获取准确奖励信号的挑战。

image.png

研究者发现,采用点式生成式奖励建模(GRM)能提升模型适应能力和推理阶段可扩展性。为此,他们提出自我原则点评调优(SPCT)学习方法,经此训练得到 DeepSeek - GRM 模型,如基于 Gemma -2-27B 训练的 DeepSeek - GRM -27B。实验显示,SPCT 显著提高了 GRM 的质量和可扩展性,在多个基准测试中表现优于现有方法和模型。此外,研究者还引入元奖励模型(meta RM)引导投票过程,提升扩展性能。

image.png

SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段,让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。研究者采用点式 GRM,还引入提示式采样提高预测奖励与真实奖励的一致性。二是基于规则的在线强化学习阶段,采用基于规则的结果奖励,鼓励 GRM 生成更好的原则与点评内容,提升推理阶段可扩展性。

为提升 DeepSeek - GRM 性能,研究团队探索推理时扩展策略。通过生成奖励进行投票,扩大奖励空间,提升最终奖励质量。同时,训练元奖励模型引导投票,过滤低质量样本。实验结果表明,DeepSeek - GRM -27B 整体性能出色,通过推理时扩展还能进一步提升。消融研究显示在线训练对 GRM 很重要,原则生成对模型性能也至关重要。此外,研究还证明了 DeepSeek - GRM -27B 在推理时扩展上的有效性,优于单纯扩大模型规模。

划重点:

💡DeepSeek 和清华研究者提出自我原则点评调优(SPCT)方法及引入元奖励模型(meta RM),提升奖励模型推理时可扩展性,构建出 DeepSeek - GRM 系列模型。

🧪SPCT 分拒绝式微调与基于规则的在线强化学习两阶段,提高了 GRM 质量和扩展性,使 DeepSeek - GRM -27B 在基准测试中表现优异。

📈研究团队探索推理时扩展策略,通过生成奖励投票和元奖励模型引导投票提升性能,证明 DeepSeek - GRM -27B 推理时扩展有效性优于扩大模型规模。

论文地址:

https://arxiv.org/abs/2504.02495

  • 相关推荐
  • DeepSeek上新!开源发布DeepSeek-Prover-V2-671B新模型

    快科技4月30日消息,今日,DeepSeek 今日在 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据介绍,DeepSeek-Prover-V2-671B 其参数量达到6710亿,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多种计算精度,方便模型更快、更省资源地训练和部署。在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提

  • DeepSeek带飞寒武纪

    寒武纪凭借AI芯片业务实现扭亏为盈,2024年首次实现上市后盈利,2025年Q1营收11.11亿元同比暴增4230%,净利润3.55亿元。这家曾连亏8年、累计亏损54亿元的"中国版英伟达",因美国对H20芯片出口管制获得市场红利,但客户集中度过高(前五大客户贡献94.63%营收)和现金流波动仍是隐忧。当前国产芯片迎来发展机遇,华为昇腾、壁仞等企业纷纷抢占市场,行业竞争日趋激烈。

  • DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布!

    【新智元导读】DeepSeek新论文来了!在清华研究者共同发布的研究中,他们发现了奖励模型推理时Scaling的全新方法。DeepSeekR2,果然近了。他们用包含300个样本的降采样测试集测试了DeepSeek-R1,发现其性能甚至不如236BMoERFT模型,这表明延长推理任务的思维链并不能显著提升通用RM的性能。

  • DeepSeek红利耗尽后,元宝拿什么和豆包斗?

    短短60天内,中国AI原生应用下载排行榜的位次排名,就三易其主。最新情况是,截至4月15日中午,中国区苹果应用商店免费APP下载排行榜上,豆包再次超越DeepSeek,位列第二,紧随其后的DeepSeek被挤到了第三的位置,腾讯元宝则滑落到了第七名。2月13日,作为首家在C端主力产品中接入DeepSeek-R1满血版的元宝,一度趁着DeepSeek东风崛起:3月3日力压DeepSeek和豆包,首度登顶。但好景�

  • DeepSeek的极致谄媚,正在摧毁我们的判断力。

    昨天别人给我发了一个很好玩的帖子。就是如果你问DeepSeek一个问题:“北京大学和清华大学哪个更好,二选一,不需要说明理由”DeepSeek在思考了15秒之后,会给出答案。

  • AI进化论——音乐、绘画和舞蹈的DeepSeek时刻

    “昔者仓颉作书天雨粟,鬼夜哭”——人类掌握文字后,天地为之动容,因为属于人类的文明诞生了。“仓颉作书”出自西汉《淮南子》,距离人类掌握文字已经过去了千年。AI进化的答案,或许早就镌刻在人类文明的起点里。

  • IQ 过百的 AI 模型名单发布:ChatGPT、Deepseek等上榜

    人工智能IQ哪家强?o3 智商高达 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 凭借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

  • 联合华为昇腾,接入DeepSeek,玄武云智慧U客V10.0发布

    玄武云·玄瞳智慧U客产品焕新发布V10.0版本,携手华为昇腾AI生态与DeepSeek大模型,帮助企业客户打造CRM增长中枢。智慧U客×华为昇腾,协同打造澎湃算力底座华为昇腾云服务的澎湃算力与高可靠性运维服务,为玄武云智慧U客的功能应用提供坚实基础。玄武云智慧CRM致力于成为耐消企业数字化发展的标配,为其业务迭代提供更智慧的工具载体。

  • 深度deepin 23.1正式发布!AI默认引擎切换至DeepSeek、修复超百项问题

    快科技4月16日消息,今天,深度操作系统宣布,deepin 23.1版本已正式发布。此版本聚焦于解决基础组件更新后的安装效率问题,大幅提升新用户安装体验,同时集成多项功能优化与问题修复,进一步优化系统使用。本次版本的重点改进包括内核优化、AI 默认引擎切换至DeepSeek、修复超百项用户反馈问题等,具体重点改进如下:硬件兼容性与内核优化:集成6.6/6.12内核更新、NVIDIA显卡驱动升级、Intel/AMD CPU微码更新,全面提升硬件支持与底层性能;核心功能增强:DDE新增智能镜像源管理、紧凑模式入口,全局搜索支持离线自然语言与AI处理能力;?

  • DeepSeek+物流行业,AI大模型破解五大场景效能困局

    文章探讨了AI大模型在物流行业的应用现状与挑战。以DeepSeek为代表的AI技术正通过重构业务流程、优化资源配置、提升决策效率等方式,成为推动行业降本增效的核心引擎。但成功应用AI大模型需要企业具备数字化基础、业务流程标准化和数据治理能力,而非简单技术堆砌。G7+易流梳理出五大核心应用场景:工作效能辅助、经营数据分析、安全审查、智能客服和知识管理。这些

今日大家都在搜的词: