首页 > 业界 > 关键词  > 阿里云最新资讯  > 正文

阿里云通义开源过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

2025-01-16 14:54 · 稿源: 快科技

阿里云通义推出突破性数学推理模型 Qwen2.5-Math-PRM

北京时间 1 月 16 日,阿里云通义开源了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM,在 72B 和 7B 尺寸上都表现出色,超越了同类开源模型

识别推理错误能力优异,超越 GPT-4o

在识别推理错误步骤方面,Qwen2.5-Math-PRM 的 7B 版本表现优异,甚至超越了 GPT-4o。通义团队还开源了首个步骤级评估标准 ProcessBench,填补了大模型推理过程错误评估的空白。

ProcessBench 评估标准,全面评估推理能力

ProcessBench 由 3400 个数学问题组成,包括奥赛难度题目。每个案例都有人类专家标注的逐步推理过程,可全面评估模型识别错误步骤的能力。该评估标准也已开源。

在 ProcessBench 上表现优异

在 ProcessBench 上进行评估时,72B 和 7B 尺寸的 Qwen2.5-Math-PRM 均显示出明显优势。7B 版本的 PRM 模型不仅超越了同尺寸开源模型,甚至超越了闭源 GPT-4o-0806。这表明 PRM 模型可以显著提高推理的可靠性,为未来开发推理过程监督技术提供了新途径。

举报

  • 相关推荐
  • 2025年大模型选型核心指南:Beyond GPT-4,如何理性评估Qwen、DeepSeek等强者?

    大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架,强调需超越单一指标崇拜,基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析,展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程,采用专业工具进行多维度评估,通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型,而非盲目追求流行模型。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • 昇腾助力中科大团队实现MoE 稀疏大模型并行推理提速超30%

    中国科学技术大学张燕咏团队在昇腾算力支持下,成功研发出基于专家选择分布预测的专家负载均衡和all2all通信均衡框架。该框架通过“三步走”策略,有效解决了MoE稀疏大模型推理中的专家负载不均和通信开销大两大难题,显著提升推理性能。实验显示,该方案在多项指标上较主流方案提升超30%,为昇腾技术优化MoE模型推理提供了宝贵借鉴,将加速其在各领域的落地应用。

  • AI日报:阿里开源Qwen-Image-Edit;淘宝“AI万能搜”功能灰度测试;小红书发布DynamicFace人脸生成技术

    本期AI日报聚焦多项AI领域创新:1)阿里开源Qwen-Image-Edit图像编辑模型,支持中文渲染与精准文本编辑;2)淘宝测试"AI万能搜"功能,重构电商搜索体验;3)小红书发布DynamicFace人脸生成技术,实现高质量图像视频换脸;4)Gemini API新增URL Context功能,简化网页内容获取流程;5)Nvidia推出小型开放模型Nemotron-Nano-9B-v2,支持智能推理开关;6)马斯克发布Grok Imagine 0.1测试版,进军AI图像生成领域;7)Vercel推出iOS版AI开发工具v0;8)理想汽车发布MindGPT 3.1模型,处理速度提升5倍;9)ToonComposer工具简化动画制作流程;10)ElevenLabs推出视频到音乐生成流程。

  • AI日报:字节OmniHuman-1.5发布;PixVerse V5模型上线;​腾讯开源智能体框架Youtu-agent

    本期AI日报聚焦多项技术突破:字节跳动发布OmniHuman-1.5实现图像音频秒变超真视频;爱诗科技PixVerse V5全球上线支持多场景创作;腾讯开源Youtu-agent框架提升AI开发效率;百度智能云发布百舸AI计算平台5.0;OpenAI将推出家长监控功能应对安全风险。同时涵盖硬件创新、市场预测及中国团队在全球AI应用领域的突出表现,展现人工智能领域快速发展的技术迭代与生态建设。

  • 吴文俊:以数学机械化照亮AI之路,精神薪火照亮创新征程

    文章介绍了中国人工智能领域的奠基人吴文俊院士,作为首届国家最高科技奖得主,他在数学机械化与人工智能领域取得卓越成就。吴文俊奖的设立旨在传承其科学精神,激励科研创新,推动中国人工智能从追赶到引领的发展历程。该奖项涵盖多个类别,成为国内智能科技最高荣誉,见证了中国AI产业的壮大与突破。

  • AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

    本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。

  • 阿里云百炼平台首个停车MCP服务上线,捷停车提供全维数据和场景支持

    8月初,捷停车-停车信息MCP服务正式上线阿里云百炼平台,成为该平台首个停车行业MCP服务,为开发者和用户提供高效停车信息查询能力。该服务覆盖全国400城、超5.9万停车场,注册用户突破1.4亿,支持车位查询、快速进出场及便捷缴费等全流程智慧停车体验。通过MCP服务,捷停车打破停车数据“信息孤岛”,实现专业停车能力“开箱即用”,助力出行服务体验升级,并推动停车行业与AI技术深度融合,加速智慧经济落地。

  • AI日报:字节视频模型Waver 1.0发布;百度AI搜索APP“梯子AI”发布;谷歌推全新Gemini 2.5 Flash图像编辑模型

    本文汇总了AI领域最新动态:谷歌推出Gemini 2.5 Flash图像编辑模型,字节发布Waver 1.0视频生成工具;百度“梯子AI”提供无广告搜索;文心快码新增终端编码功能;腾讯游戏VISVISE工具集提升动画制作效率;自动驾驶配送机器人RM5进军外卖行业;DeepSeek V3.1出现字符Bug已修复;谷歌翻译升级实时同传和AI陪练;全球首现AI勒索软件PromptLock威胁网络安全;Anthropic推出Chrome浏览器AI助手Claude。

今日大家都在搜的词: