阿里云通义开源过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

2025-01-16 14:54 · 稿源：快科技

阿里云通义推出突破性数学推理模型 Qwen2.5-Math-PRM

北京时间 1 月 16 日，阿里云通义开源了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM，在 72B 和 7B 尺寸上都表现出色，超越了同类开源模型。

识别推理错误能力优异，超越 GPT-4o

在识别推理错误步骤方面，Qwen2.5-Math-PRM 的 7B 版本表现优异，甚至超越了 GPT-4o。通义团队还开源了首个步骤级评估标准 ProcessBench，填补了大模型推理过程错误评估的空白。

ProcessBench 评估标准，全面评估推理能力

ProcessBench 由 3400 个数学问题组成，包括奥赛难度题目。每个案例都有人类专家标注的逐步推理过程，可全面评估模型识别错误步骤的能力。该评估标准也已开源。

在 ProcessBench 上表现优异

在 ProcessBench 上进行评估时，72B 和 7B 尺寸的 Qwen2.5-Math-PRM 均显示出明显优势。7B 版本的 PRM 模型不仅超越了同尺寸开源模型，甚至超越了闭源 GPT-4o-0806。这表明 PRM 模型可以显著提高推理的可靠性，为未来开发推理过程监督技术提供了新途径。

（举报）

相关推荐

关键词：

Qwen登顶AI赚钱大赛只是开始？“弃GPT投Qwen”已在硅谷蔓延开来

近期AI炒币大赛Alpha Arena引发关注，六款主流大模型用1万美元本金在币圈实战。戏剧性的是，被寄予厚望的GPT-5和Gemini因高杠杆操作亏损惨重，而中国开源模型表现亮眼——通义千问Qwen以53%回报率逆袭登顶，DeepSeek紧随其后。硅谷巨头Airbnb CEO公开表态依赖Qwen，投资人Chamath也承认将业务转向中国模型。市场用真金白银投票：预测平台押注Qwen胜率高达36%，远超OpenAI的3%。这场竞赛虽存随机性，但中国开源阵营已展现强劲势头。

AI炒币大赛 Alpha Arena
AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

本文汇总AI领域最新动态：OpenAI推出集成ChatGPT的Atlas浏览器，实现多任务自主处理；阿里通义千问新增2B/32B视觉语言模型，手机可流畅运行；谷歌AI Studio升级Vibe Coding功能，简化应用开发流程；百川发布医疗大模型M2Plus，通过循证推理降低误诊率；奇瑞墨甲机器人实现L3级技术突破，计划多行业应用；YouTube推出AI肖像识别工具，打击虚假内容；三星宣布2026年推出AI眼镜，融合AR与语音助手；Claude客户端更新，支持截图分析和语音交互功能。

AI OpenAI ChatGPT
云天励飞携全栈AI推理芯片产品亮相湾芯展，引领“推理时代”新赛道

在2025年湾区半导体产业生态博览会上，云天励飞以“算力积木”为核心理念，全面展示全栈AI推理产品体系。重点推出自研芯片DeepEdge系列及配套模组与加速卡，覆盖从边缘计算到云端推理的不同层级，构建灵活可扩展的算力体系。通过D2D Chiplet等模块化技术，实现8T至256T算力范围，高效支持7B至130B参数的大模型实时推理。目前公司已适配国产鸿蒙系统及主流大模型，参与国家重大专项工程，为航天探测等提供核心算力支撑。未来将持续深化AI芯片研发，携手生态伙伴推动智能计算的普惠化与无处不在。

云天励飞算力积木 AI推理
荐AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球首发；Gemini代码惊现Veo3.1

阿里巴巴发布紧凑型Qwen3-VL多模态模型，推动边缘设备AI应用；科大讯飞推出全球首款AI翻译耳机，支持60种语言实时翻译；谷歌NotebookLM集成图像生成功能，可将笔记转为动态视频；ChatGPT将于12月向成人开放限制内容并推出自定义交互功能；谷歌Gemini代码泄露Veo3.1视频模型升级迹象；马斯克宣布X平台将全面转向AI推荐系统；巨人网络与清华联合开源多方言语音合成框架DiaMoE-TTS；vivo公布X200系列影像升级计划；字节跳动开源文本驱动高保真人脸生成模型FaceCLIP。

AI技术多模态模型边缘计算
全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

AI圈虽然天天卷，但是很多的模型，真的越来越无聊了。每天就是跑分又多了几个点。直到昨天，DeepSeek久违的发了一个新模型。 DeepSeek-OCR。这玩意，是真的有点酷。

DeepSeek-OCR AI模型 OCR技术
快手进军AI Coding，开发工具、模型和Maas平台齐登场

10月23日，快手StreamLake发布全新AI编程产品矩阵，以“工具+模型+平台”三位一体战略布局AI Coding领域。核心产品包括智能开发助手CodeFlicker、自研高性能编码模型KAT-Coder系列及企业级服务平台快手万擎。CodeFlicker提供全流程开发支持，KAT-Coder在权威测试中性能超越GPT-5，平台保障99.95%服务可用性。该生态旨在通过技术普惠，为企业与开发者提供颠覆性研发体验，推动AI编程普及。

AI编程快手StreamLake CodeFlicker
DeepSeek开源3B OCR模型：长文本识别达97%精度

DeepSeek在GitHub开源新一代OCR模型，采用创新光学二维映射压缩技术，在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌，较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率，显著优于同类模型。该技术路径为OCR系统小型化提供解决方案，其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

DeepSeek-OCR 光学二维映射压缩长文本识别
阿里云与天猫启动“AI新品类联合计划” ，支持智能硬件规模化发展

2025年9月24日，阿里云与天猫在杭州云栖大会联合启动“AI新品类联合计划”，旨在依托阿里云AI技术及天猫电商平台，为智能硬件企业构建从产品创新到商业落地的闭环。计划覆盖XR设备、机器人、无人机等品类，提供专项组织保障、定制化政策、资源倾斜及技术支持。双方将共同推动AI硬件产业发展，天猫平台已优化eSIM服务、搜索推荐、以旧换新及渠道对接，助力产品转化。数据显示，智能眼镜、机器人等品类增长显著，平台生态持续扩大，AI硬件将成为2025年双十一大促重点品类。

AI新品类智能硬件阿里云天猫合作
AI日报：腾讯发布全新ima2.0;微软发布 Copilot 一系列重磅更新；阿里夸克AI眼镜开启预售

本文汇总近期AI领域重要动态：月之暗面再获数亿美元融资，显示资本对国产大模型的信心；Anthropic为Claude推出记忆功能，兼顾个性化与隐私保护；中科大与字节发布MoGA长视频生成模型，实现分钟级高质量生成；腾讯ima2.0升级任务模式，可自主拆解复杂流程；阿里夸克AI眼镜开启预售，融合拍摄与智能功能；微软Copilot新增群聊、记忆与Edge AI模式；Opera推出深度研究代理ODRA提升�

AI 大模型 Kimi
荐AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

本期AI日报聚焦多项技术更新：谷歌Veo 3.1视频模型新增音频生成与精细化编辑功能；通义千问推出记忆功能提升对话连贯性；Sora2免费用户可生成15秒视频，Pro版支持25秒；百度文心助手升级8种创作模式；谷歌Flow工具增强视频光影编辑与音频合成能力；Anthropic发布高性价比Claude Haiku 4.5；北京查处首例AI虚假广告案，涉伪造主持人带货；阿里推出响应仅200毫秒的编程工具Qoder CLI。

AI 视频生成谷歌

今日大家都在搜的词：

热文

3 天
7天

阿里云通义开源过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

Qwen登顶AI赚钱大赛只是开始？“弃GPT投Qwen”已在硅谷蔓延开来

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

云天励飞携全栈AI推理芯片产品亮相湾芯展，引领“推理时代”新赛道

荐AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球首发；Gemini代码惊现Veo3.1

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

快手进军AI Coding，开发工具、模型和Maas平台齐登场

DeepSeek开源3B OCR模型：长文本识别达97%精度

阿里云与天猫启动“AI新品类联合计划” ，支持智能硬件规模化发展

AI日报：腾讯发布全新ima2.0;微软发布 Copilot 一系列重磅更新；阿里夸克AI眼镜开启预售

荐AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

今日大家都在搜的词：

热文

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

华为nova Flip S小折叠开售：首发3388元起

雷军回应K90定价：最近内存涨价太多希望大家理解这份诚意

REDMI K90标准版12+512GB降价300元小米回应：可退差价

苹果首款2nm手机芯片上热搜 A20由iPhone 18系列首发

小米汽车发布跨年购置税补贴方案至高不超15000元

卢伟冰：REDMI K90标准版12+512首销月直降300 售价2899元

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

余承东官宣华为路由X3 Pro 采用“日照金山”设计

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

站长商机