首页 > 业界 > 关键词  > 阿里云最新资讯  > 正文

阿里云通义开源过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

2025-01-16 14:54 · 稿源: 快科技

阿里云通义推出突破性数学推理模型 Qwen2.5-Math-PRM

北京时间 1 月 16 日,阿里云通义开源了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM,在 72B 和 7B 尺寸上都表现出色,超越了同类开源模型

识别推理错误能力优异,超越 GPT-4o

在识别推理错误步骤方面,Qwen2.5-Math-PRM 的 7B 版本表现优异,甚至超越了 GPT-4o。通义团队还开源了首个步骤级评估标准 ProcessBench,填补了大模型推理过程错误评估的空白。

ProcessBench 评估标准,全面评估推理能力

ProcessBench 由 3400 个数学问题组成,包括奥赛难度题目。每个案例都有人类专家标注的逐步推理过程,可全面评估模型识别错误步骤的能力。该评估标准也已开源。

在 ProcessBench 上表现优异

在 ProcessBench 上进行评估时,72B 和 7B 尺寸的 Qwen2.5-Math-PRM 均显示出明显优势。7B 版本的 PRM 模型不仅超越了同尺寸开源模型,甚至超越了闭源 GPT-4o-0806。这表明 PRM 模型可以显著提高推理的可靠性,为未来开发推理过程监督技术提供了新途径。

举报

  • 相关推荐
  • Qwen登顶AI赚钱大赛只是开始?“弃GPT投Qwen”已在硅谷蔓延开来

    近期AI炒币大赛Alpha Arena引发关注,六款主流大模型用1万美元本金在币圈实战。戏剧性的是,被寄予厚望的GPT-5和Gemini因高杠杆操作亏损惨重,而中国开源模型表现亮眼——通义千问Qwen以53%回报率逆袭登顶,DeepSeek紧随其后。硅谷巨头Airbnb CEO公开表态依赖Qwen,投资人Chamath也承认将业务转向中国模型。市场用真金白银投票:预测平台押注Qwen胜率高达36%,远超OpenAI的3%。这场竞赛虽存随机性,但中国开源阵营已展现强劲势头。

  • AI日报:OpenAI发布浏览器Atlas;通义Qwen3-VL新增2B、32B两个模型尺寸;百川发布循环证据增强大模型

    本文汇总AI领域最新动态:OpenAI推出集成ChatGPT的Atlas浏览器,实现多任务自主处理;阿里通义千问新增2B/32B视觉语言模型,手机可流畅运行;谷歌AI Studio升级Vibe Coding功能,简化应用开发流程;百川发布医疗大模型M2Plus,通过循证推理降低误诊率;奇瑞墨甲机器人实现L3级技术突破,计划多行业应用;YouTube推出AI肖像识别工具,打击虚假内容;三星宣布2026年推出AI眼镜,融合AR与语音助手;Claude客户端更新,支持截图分析和语音交互功能。

  • 云天励飞携全栈AI推理芯片产品亮相湾芯展,引领“推理时代”新赛道

    在2025年湾区半导体产业生态博览会上,云天励飞以“算力积木”为核心理念,全面展示全栈AI推理产品体系。重点推出自研芯片DeepEdge系列及配套模组与加速卡,覆盖从边缘计算到云端推理的不同层级,构建灵活可扩展的算力体系。通过D2D Chiplet等模块化技术,实现8T至256T算力范围,高效支持7B至130B参数的大模型实时推理。目前公司已适配国产鸿蒙系统及主流大模型,参与国家重大专项工程,为航天探测等提供核心算力支撑。未来将持续深化AI芯片研发,携手生态伙伴推动智能计算的普惠化与无处不在。

  • AI日报:阿里发布紧凑型Qwen3-VL模型;科大讯飞AI翻译耳机全球首发;Gemini代码惊现Veo3.1

    阿里巴巴发布紧凑型Qwen3-VL多模态模型,推动边缘设备AI应用;科大讯飞推出全球首款AI翻译耳机,支持60种语言实时翻译;谷歌NotebookLM集成图像生成功能,可将笔记转为动态视频;ChatGPT将于12月向成人开放限制内容并推出自定义交互功能;谷歌Gemini代码泄露Veo3.1视频模型升级迹象;马斯克宣布X平台将全面转向AI推荐系统;巨人网络与清华联合开源多方言语音合成框架DiaMoE-TTS;vivo公布X200系列影像升级计划;字节跳动开源文本驱动高保真人脸生成模型FaceCLIP。

  • 全新开源的DeepSeek-OCR,可能是最近最惊喜的模型。

    ​AI圈虽然天天卷,但是很多的模型,真的越来越无聊了。 每天就是跑分又多了几个点。 直到昨天,DeepSeek久违的发了一个新模型。 DeepSeek-OCR。 这玩意,是真的有点酷。

  • 快手进军AI Coding,开发工具、模型和Maas平台齐登场

    10月23日,快手StreamLake发布全新AI编程产品矩阵,以“工具+模型+平台”三位一体战略布局AI Coding领域。核心产品包括智能开发助手CodeFlicker、自研高性能编码模型KAT-Coder系列及企业级服务平台快手万擎。CodeFlicker提供全流程开发支持,KAT-Coder在权威测试中性能超越GPT-5,平台保障99.95%服务可用性。该生态旨在通过技术普惠,为企业与开发者提供颠覆性研发体验,推动AI编程普及。

  • DeepSeek开源3B OCR模型:长文本识别达97%精度

    DeepSeek在GitHub开源新一代OCR模型,采用创新光学二维映射压缩技术,在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌,较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率,显著优于同类模型。该技术路径为OCR系统小型化提供解决方案,其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

  • 阿里云与天猫启动“AI新品类联合计划” ,支持智能硬件规模化发展

    2025年9月24日,阿里云与天猫在杭州云栖大会联合启动“AI新品类联合计划”,旨在依托阿里云AI技术及天猫电商平台,为智能硬件企业构建从产品创新到商业落地的闭环。计划覆盖XR设备、机器人、无人机等品类,提供专项组织保障、定制化政策、资源倾斜及技术支持。双方将共同推动AI硬件产业发展,天猫平台已优化eSIM服务、搜索推荐、以旧换新及渠道对接,助力产品转化。数据显示,智能眼镜、机器人等品类增长显著,平台生态持续扩大,AI硬件将成为2025年双十一大促重点品类。

  • AI日报:腾讯发布全新ima2.0;微软发布 Copilot 一系列重磅更新;阿里夸克AI眼镜开启预售

    本文汇总近期AI领域重要动态:月之暗面再获数亿美元融资,显示资本对国产大模型的信心;Anthropic为Claude推出记忆功能,兼顾个性化与隐私保护;中科大与字节发布MoGA长视频生成模型,实现分钟级高质量生成;腾讯ima2.0升级任务模式,可自主拆解复杂流程;阿里夸克AI眼镜开启预售,融合拍摄与智能功能;微软Copilot新增群聊、记忆与Edge AI模式;Opera推出深度研究代理ODRA提升�

  • AI日报:谷歌发布Veo 3.1;通义千问推Qwen Chat Memory功能;Sora2免费用户可生成15秒视频

    本期AI日报聚焦多项技术更新:谷歌Veo 3.1视频模型新增音频生成与精细化编辑功能;通义千问推出记忆功能提升对话连贯性;Sora2免费用户可生成15秒视频,Pro版支持25秒;百度文心助手升级8种创作模式;谷歌Flow工具增强视频光影编辑与音频合成能力;Anthropic发布高性价比Claude Haiku 4.5;北京查处首例AI虚假广告案,涉伪造主持人带货;阿里推出响应仅200毫秒的编程工具Qoder CLI。

今日大家都在搜的词: