DeepSeek 与清华联合研究:创新奖励模型推理方法，提升可扩展性

2025-04-05 09:39 · 来源： AIbase基地

近日，DeepSeek 和清华的研究者发布新论文，探讨了奖励模型的推理时 Scaling 方法，让 DeepSeek R2似乎更近一步。目前，强化学习在大语言模型的大规模后训练阶段广泛应用，但面临为大语言模型获取准确奖励信号的挑战。

研究者发现，采用点式生成式奖励建模（GRM）能提升模型适应能力和推理阶段可扩展性。为此，他们提出自我原则点评调优(SPCT)学习方法，经此训练得到 DeepSeek - GRM 模型，如基于 Gemma -2-27B 训练的 DeepSeek - GRM -27B。实验显示，SPCT 显著提高了 GRM 的质量和可扩展性，在多个基准测试中表现优于现有方法和模型。此外，研究者还引入元奖励模型(meta RM)引导投票过程，提升扩展性能。

SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段，让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。研究者采用点式 GRM，还引入提示式采样提高预测奖励与真实奖励的一致性。二是基于规则的在线强化学习阶段，采用基于规则的结果奖励，鼓励 GRM 生成更好的原则与点评内容，提升推理阶段可扩展性。

为提升 DeepSeek - GRM 性能，研究团队探索推理时扩展策略。通过生成奖励进行投票，扩大奖励空间，提升最终奖励质量。同时，训练元奖励模型引导投票，过滤低质量样本。实验结果表明，DeepSeek - GRM -27B 整体性能出色，通过推理时扩展还能进一步提升。消融研究显示在线训练对 GRM 很重要，原则生成对模型性能也至关重要。此外，研究还证明了 DeepSeek - GRM -27B 在推理时扩展上的有效性，优于单纯扩大模型规模。

划重点:

💡DeepSeek 和清华研究者提出自我原则点评调优（SPCT）方法及引入元奖励模型(meta RM)，提升奖励模型推理时可扩展性，构建出 DeepSeek - GRM 系列模型。

🧪SPCT 分拒绝式微调与基于规则的在线强化学习两阶段，提高了 GRM 质量和扩展性，使 DeepSeek - GRM -27B 在基准测试中表现优异。

📈研究团队探索推理时扩展策略，通过生成奖励投票和元奖励模型引导投票提升性能，证明 DeepSeek - GRM -27B 推理时扩展有效性优于扩大模型规模。

论文地址:

https://arxiv.org/abs/2504.02495

DeepSeek 与清华联合研究:创新奖励模型推理方法，提升可扩展性

DeepSeek上新！开源发布DeepSeek-Prover-V2-671B新模型

荐DeepSeek带飞寒武纪

荐DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布！

荐DeepSeek红利耗尽后，元宝拿什么和豆包斗？

DeepSeek的极致谄媚，正在摧毁我们的判断力。

荐AI进化论——音乐、绘画和舞蹈的DeepSeek时刻

IQ 过百的 AI 模型名单发布：ChatGPT、Deepseek等上榜

联合华为昇腾，接入DeepSeek，玄武云智慧U客V10.0发布

深度deepin 23.1正式发布！AI默认引擎切换至DeepSeek、修复超百项问题

DeepSeek+物流行业，AI大模型破解五大场景效能困局

今日大家都在搜的词：

热文

印度将中国电子投资压股至 10%，且要求“技术转让”

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

美国网购市场动荡，希音、Temu 率先在美开启“涨价潮”！

站长商机