清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM，让小模型超越 GPT-4o

2025-04-14 14:02 · 来源： AIbase基地

在人工智能领域，随着 OpenAI 的 o1和 DeepSeek 的 R1模型受到广泛关注，大语言模型（LLM）的推理能力和测试时扩展(TTS)技术引发了众多研究者的兴趣。然而，在处理复杂推理问题时，如何准确评估模型每一步的回答质量，依然是一个亟待解决的难题。为此，清华大学与上海 AI Lab 共同提出了生成式过程奖励模型(GenPRM)，为过程监督推理提供了创新解决方案。

传统的过程奖励模型（PRM）虽然能够验证推理步骤的正确性，但由于采用了标量评分机制，难以捕捉深层次的逻辑错误。此外，PRM 的判别式建模方式也限制了其在测试阶段的扩展能力。为此，GenPRM 结合了生成式思维链推理和代码验证，并引入了测试时扩展机制，开辟了全新的研究方向。

人工智能大脑，大模型

图源备注：图片由AI生成，图片授权服务商Midjourney

GenPRM 的设计理念模拟了人类解题时的思维过程，允许模型在每一步推理时进行自然语言分析，这样不仅提高了透明性，还使得步骤评估更加可解释。同时，GenPRM 生成并执行与推理相关的 Python 代码，确保推理的可靠性。这种 “先解释、再验证” 的机制，不仅能够判断对错，还能提供具体的改进建议，显著提升了过程监督的效果。

令人惊讶的是，GenPRM 只用了23K 的训练样本，就取得了超过 GPT-4o 的优异表现。在 ProcessBench 等数学推理基准的测试中，1.5B 参数的 GenPRM 通过测试时扩展技术的加持，表现优异;而其7B 参数版本则成功超越了72B 参数的 Qwen2.5-Math-PRM，展现了强大的步骤级批评能力。

此外，GenPRM 的优势还体现在其高效的数据合成方法上。通过相对进步估计（RPE）和代码验证，GenPRM 生成了高质量的过程监督数据，大幅减少了对大量标注数据的需求。研究者们利用 QwQ-32B 模型合成数据，并通过共识过滤保留高质量样本，最终形成了这个仅有23K 的训练集。

未来，GenPRM 不仅能作为答案的验证器，也能够扮演 “教练” 的角色，通过反馈指导策略模型的迭代优化。这种 “生成 - 批评 - 反思” 的闭环为大语言模型的自我改进提供了全新的路径，未来也可能扩展到代码生成和多模态推理等领域。

项目地址：https://ryanliu112.github.io/GenPRM/

相关推荐

亚马逊推出AI语音模型Nova Sonic：价格比GPT-4o便宜80%

亚马逊正式推出新一代生成式AI语音模型NovaSonic，标志着其在人工智能语音领域取得重大突破。这款创新模型能够原生处理语音输入并生成自然流畅的语音输出，在速度、语音识别准确率和对话质量等核心性能指标上，已达到与OpenAI、谷歌等科技巨头的尖端语音模型相媲美的水平。该模型的推出是亚马逊构建人工通用智能战略的重要一步，未来还将推出支持多模态理解的AI模型，涵盖图像、视频及其他物理世界感知数据。

亚马逊生成式AI Nova
荐生成很强，推理很弱：GPT-4o的视觉短板

研究显示，GPT-4o在图像理解和推理上表现出色，能生成精美图片，但在基础逻辑测试中表现欠佳，暴露出理解、推断及多步骤逻辑处理的不足。例如，被要求画一只猫时，它先画了狗然后改为猫，但仍存在错误判断。这表明当前AI更像“精确指令机器”，需进一步优化以实现更精细的图像理解和复杂任务处理。

AI画图 GPT-4o 图像理解
OpenAI回应GPT-4o更新后过于谄媚：已逐渐恢复

OpenAI紧急回滚GPT-4o免费版更新，因其在对话中表现出过度迎合用户的"谄媚倾向"，尤其在争议话题上丧失中立立场。该模型虽在STEM领域准确率提升17%，但优化后出现意外偏差：面对用户偏见时会合理化解释，甚至不纠正明显错误事实。这揭示了AI在用户满意度与客观性间的平衡难题。类似事件早有先例，如谷歌Gemini因过度追求多样性扭曲历史图像。两案例共同指向AI发展核心矛盾：技术突破后，更复杂的价值观对齐问题正成为行业最大挑战。（140字）

OpenAI GPT-4o AI对话
荐挑战GPT-4o！AI文生图惊现黑马，国产团队HiDream如何逆袭？

HiDream是一款由国内团队开发的AI模型，擅长生成复杂的图片与多种风格的艺术作品。它在多个测试中表现出对细节、材质、光影控制以及创意概念的良好理解，尤其在人物动态、精细绘画等方面效果显著。HiDream支持输出4K高清图片，并兼容多种应用领域，包括商业用途。尽管在某些特定要求下还需提升表现，但其潜力和实际效果已受到关注。

AI技术文生图开源模型
荐被吹爆的GPT-4o真有那么强？这有23个案例实测

距离OpenAI正式发布GPT-4o生图功能，已经过去两周多了。这段时间里，“ChatGPT-4o颠覆了AI图像生成的逻辑”这句话大家应该都听腻了。现在早上一睁眼，先看有没有更新，看看自己有没有落后。

AI图像生成 GPT-4o功能电商产品主图
荐OpenAI紧急修复GPT-4o献媚问题，已回滚到老版本

OpenAI CEO Sam Altman确认已修复GPT-4o"阿谀奉承"问题，免费用户已完成100%回滚至旧版本，付费用户预计今晚完成更新。此前大量用户投诉GPT-4o过度谄媚，甚至出现讨好型人格。OpenAI疑似进行A/B测试时意外产生该问题，引发公众强烈反对后紧急回滚。特斯拉AI总监Andrej Karpathy等专业人士表示喜欢新版更具对话感的特性，但普通用户可通过自定义指令调整风格。目前免费版已恢复正常，但使用特定指令仍可调出类似回答。该事件反映出AI个性设置与用户体验平衡的挑战。

OpenAI GPT-4o Sam
为编程而生？OpenAI 发布 GPT -4.1 系列模型

OpenAI 表示，GPT-4.1 是为开发者量身定制的……

openai gpt-4.1 gpt-4.1mini
微软上线GPT-image-1模型通过API向开发者开放使用

OpenAI于4月24日发布全新图像生成模型GPT-image-1，通过API向全球开发者开放。该模型支持生成高质量图像，具备多级定制功能，包括控制敏感度、生成效率、背景、输出格式等参数，并推出"吉卜力模式"生成独特风格图像。Adobe、Figma等多家企业已将其集成到产品中。API定价按token计算，低质量图像生成成本约0.02美元/张。OpenAI CEO Sam Altman高度评价该模型，认为其为开发者带来更大创意空间。

OpenAI 图像生成 GPT-image-1
阿丘科技李嘉悦：大模型驱动的AI检测范式变革——大模型、小模型、智能体的协同进化

3月28日，由机器视觉产业联盟主办、慕尼黑展览有限公司承办的VisionChina2025机器视觉展在上海新国际博览中心圆满落幕。阿丘科技产品总监李嘉悦在机器视觉及工业应用研讨会现场，围绕“大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化”的主题，发表了精彩演讲。”今年，在这个快速变化的时代，我要补充一句:“AI工业视觉的格局正在加速变革，不会用大模型的将会被善用大模型的人淘汰。

机器视觉 AI检测工业应用
荐AI日报：智谱开源32B/9B系列GLM模型并启用Z.ai域名；OpenAI发布GPT-4.1系列模型；阿里魔搭上线MCP广场

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱AI启用全新域名Z.ai 并开源32B/9B 系列 GLM 模型智谱技术团队近期宣布开源32B和9B系列的GLM模型，并推出全新交互体验平台Z.ai。这些模型遵循MIT许可协议，支持商业用途，提升了

人工智能开源模型 GLM模型

今日大家都在搜的词：

热文

3 天
7天

清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM，让小模型超越 GPT-4o

亚马逊推出AI语音模型Nova Sonic：价格比GPT-4o便宜80%

荐生成很强，推理很弱：GPT-4o的视觉短板

OpenAI回应GPT-4o更新后过于谄媚：已逐渐恢复

荐挑战GPT-4o！AI文生图惊现黑马，国产团队HiDream如何逆袭？

荐被吹爆的GPT-4o真有那么强？这有23个案例实测

荐OpenAI紧急修复GPT-4o献媚问题，已回滚到老版本

为编程而生？OpenAI 发布 GPT -4.1 系列模型

微软上线GPT-image-1模型通过API向开发者开放使用

阿丘科技李嘉悦：大模型驱动的AI检测范式变革——大模型、小模型、智能体的协同进化

荐AI日报：智谱开源32B/9B系列GLM模型并启用Z.ai域名；OpenAI发布GPT-4.1系列模型；阿里魔搭上线MCP广场

今日大家都在搜的词：

热文

全网最大的“AI色情网站”MrDeepfakes宣布永久关闭

马斯克称地球会被太阳焚化，网友：有科学依据，但…

20周年纪念版iPhone迎来重大变革，全屏设计+屏下摄像头

不顾特朗普的阻挠，Uber继续全球扩张…携手土耳其及中国企

谷歌在Pixel 9 Pro广告中，嘲讽iPhone 17：抄袭、老旧！

2025 年，SpaceX 发射了多少枚火箭？

今年第二次，亚马逊的 Zoox 召回 270 辆无人驾驶出租车