首页 > AI头条  > 正文

阿里巴巴Qwen2.5数学能力遭质疑:新研究揭示模型或依赖记忆而非推理

2025-07-21 08:58 · 来源: AIbase基地

据国外媒体报道, 一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑,指出其看似卓越的数学推理能力,可能主要来源于对训练数据的记忆,而非真正的推理。研究人员通过一系列严谨的测试发现,数据污染可能是导致Qwen2.5在某些基准测试中表现优异的关键因素。

数据污染浮出水面:干净基准下性能急剧下降

该研究的核心发现是,当Qwen2.5模型在训练期间从未见过的“干净”基准上进行测试时,其性能出现了急剧下降。这表明模型在“受污染”的基准测试中取得的进步,很大程度上是由于其在训练过程中已经接触过这些数据。

为了验证这一假设,研究团队进行了一项创新性实验:他们仅向Qwen2.5-Math-7B模型提供了MATH500基准测试的前60%题目,并要求其补全剩余的40%。结果令人震惊:Qwen2.5-Math-7B竟能以高达54.6%的准确率(53.6%的正确率)成功重建缺失部分。相比之下,Llama3.1-8B的准确率仅为3.8%(正确率为2.4%)。这一显著差异强烈暗示Qwen2.5在训练过程中已经“见过”这些问题。

QQ20250721-085713.png

LiveMathBench测试:Qwen2.5完成率降至零

研究人员随后使用LiveMathBench(版本202505)对Qwen2.5进行了测试。LiveMathBench是一个在Qwen2.5发布后才出现的“干净”基准测试,这意味着Qwen2.5不可能在训练过程中接触过其中的数据。在这一全新的数据集上,Qwen2.5的完成率骤降至零,与Llama模型表现相当,其答案准确率也仅剩2%。

研究指出,Qwen2.5可能已在大型在线数据集上进行了预训练,其中包括了包含基准问题及其解决方案的GitHub代码库。因此,即使在训练期间接收到随机或错误的奖励信号,模型也能因为事先接触过这些数据而提升其在MATH-500上的表现。

响应模板变化与合成数据验证

进一步的实验表明,当响应模板发生变化时,Qwen2.5模型在MATH-500上的性能会急剧下降,而Llama-3.1-8B几乎不受影响。这进一步支持了Qwen2.5对特定数据模式的依赖性。

为彻底排除记忆效应,研究团队还创建了RandomCalculation数据集,其中包含Qwen2.5发布后生成的完全合成的算术问题。在这些新问题上,Qwen2.5的准确率随着问题复杂度的增加而下降。只有正确的奖励信号才能提高模型表现,而随机奖励会导致训练不稳定,反向奖励甚至会降低其数学技能。受控的RLVR(可验证奖励的强化学习)实验也证实了这些结果:只有正确的奖励才能带来稳定的性能提升,随机或反向奖励则无法提高或主动降低性能。

对未来AI研究的启示

这些发现对Qwen2.5的数学能力是否反映真实推理能力提出了严重质疑,反而表明该模型严重依赖于记忆数据。阿里巴巴于2024年9月推出了Qwen2.5,随后又推出了Qwen3系列。这项研究的发现是否适用于Qwen3系列,仍有待观察。

该研究的作者警告称,受污染的基准测试可能导致关于人工智能进展的误导性结论。他们强调,未来的研究应依赖于干净、未受污染的基准,并评估多个模型系列以获得更可靠的结果。

基准测试的“游戏规则”

研究结果再次凸显了在大型语言模型中区分真实推理与记忆的难度,以及为何严谨、清晰的评估方法对于可靠的人工智能研究至关重要。此前已有研究表明,基准测试可能被操纵或“玩弄”。例如,Meta曾提交一个经过专门调优的Llama4版本,通过使用自定义响应格式在LMArena基准测试中表现优异。其他研究也显示,Gemini2.5Pro和Claude3.5Sonnet等模型能够以高达95%的准确率识别测试场景并调整其响应,这引发了对当前评估方法有效性的更广泛质疑。

  • 相关推荐
  • AI日报:国产版Nano Banana?即梦图片4.0发布;阿里巴巴发布 Qwen3-Max-Preview;上海重磅发布AI广告扶持政策

    AI日报栏目聚焦人工智能领域最新动态。主要内容包括:即梦图集4.0发布,新增文生图、图像编辑等功能;阿里巴巴推出超万亿参数语言模型Qwen3-Max-Preview;小米AI眼镜上线支付宝“看一看”支付功能;微软开源14B参数模型rStar2-Agent在数学推理领域表现突出;MiniMax启动股权激励计划覆盖核心员工;谷歌明确Gemini使用限制,免费用户每日最多5次提示;上海发布AI广告扶持政策,最高补贴500万元。这些进展展示了AI技术在图像处理、语言模型、智能支付等领域的创新应用。

  • 行业首个!华为Mate XTs非凡大师接入中国地震局数据:预警能力提升2.5倍

    在今天的华为Mate XTs非凡大师及全场景新品发布会上,余承东宣布华为Mate XTs非凡大师三折叠屏手机接入了中国地震局数据,这也是行业首个接入中国地震局数据的手机。 据介绍,接入中国地震局数据后,华为Mate XTs非凡大师能够实时联通全国1.5万个专业地震观察站点,将地震预警能力提升2.5倍,实现全国重点地区的秒级地震预警。

  • AI能力获权威认可,易鑫荣登“2025 AI Era企业创新大奖TOP55”

    易鑫集团凭借突出的科技创新能力及多项AI技术落地成果,荣登“2025AI+Era企业创新大奖TOP55”榜单,成为榜单上唯一的汽车金融科技领域代表。该奖项由新智元发起,旨在评选AI领域具有卓越市场竞争力和创新力的标杆企业。易鑫自研的AI技术已全面应用于汽车金融全场景,显著提升服务效率与用户体验,并通过科技解决方案赋能海内外合作伙伴,展现出优秀的商业化落地与跨区域扩展能力。公司将持续推进AI创新与业务深度融合,助力合作伙伴和用户共享科技红利。

  • Kimi K2模型更新至0905版本:更强代码能力 更快API性能

    月之暗面科技有限公司宣布其Kimi K2模型更新至0905版本,带来更强的代码能力和更快的API性能。此次更新进一步提升了Kimi K2在真实编程任务中的表现,特别是在公开基准测试和实际编程任务中展现出更好的性能。 Kimi K2模型的Agentic Coding能力得到显著提升,这使得它在处理复杂的编程任务时更加高效。同时,前端编程体验也得到了升级,生成的代码不仅更加美观,而且更具实用

  • 腾讯9篇论文入选数据库顶会VLDB 2025,前沿研究服务亿级业务场景

    腾讯在VLDB2025顶会上入选9篇论文,覆盖分布式事务调度、混合并发控制、OLTP负载压缩、时序图计算、NL2SQL等前沿领域。与人大、华科、复旦等高校合作成果已在微信、广告等业务落地,提升性能4.8倍,优化速度提高40倍,NL2SQL准确率提升18%。部分技术集成至腾讯云TDSQL,应用于金融、政务、电商等行业,推动全球数据库基础设施持续演进。

  • 2025年大模型选型核心指南:Beyond GPT-4,如何理性评估Qwen、DeepSeek等强者?

    大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架,强调需超越单一指标崇拜,基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析,展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程,采用专业工具进行多维度评估,通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型,而非盲目追求流行模型。

  • 法国一受虐博主在直播中死亡 平台监管遭质疑

    8 月 18 日,法国发生一起令人痛心且震惊的事件,一名以受虐内容吸引流量的博主在直播中不幸身亡,引发社会广泛关注,同时其所在平台也被指控监管不力。 他通过在直播中遭受他人虐待或羞辱的方式吸引流量,直播内容触目惊心,包括被锁喉、殴打、泼冷水、电击、高温桑拿、酒精灌胃等极端行为。

  • AI日报:字节视频模型Waver 1.0发布;百度AI搜索APP“梯子AI”发布;谷歌推全新Gemini 2.5 Flash图像编辑模型

    本文汇总了AI领域最新动态:谷歌推出Gemini 2.5 Flash图像编辑模型,字节发布Waver 1.0视频生成工具;百度“梯子AI”提供无广告搜索;文心快码新增终端编码功能;腾讯游戏VISVISE工具集提升动画制作效率;自动驾驶配送机器人RM5进军外卖行业;DeepSeek V3.1出现字符Bug已修复;谷歌翻译升级实时同传和AI陪练;全球首现AI勒索软件PromptLock威胁网络安全;Anthropic推出Chrome浏览器AI助手Claude。

  • 退休外科医生做饭切肉宛如做手术 或已形成肌肉记忆

    ​近日,一位退休外科医生在家中厨房做饭时,凭借其精细的切肉手法引发关注。只见他手持菜刀,动作严谨而精准,每一刀落下都仿佛是在进行一场精细的手术操作,让人不禁感叹职业习惯的强大延续性。 据目击者描述,这位医生在切肉时全神贯注,眼神专注而锐利,仿佛面前的不是一块普通的肉,而是一个需要精心修复的“患者”。他的刀工了得,每一片肉都切得薄厚均

  • 今年第三起!澳大利亚男子冲浪时遭鲨鱼袭击身亡

    澳大利亚悉尼一男子在长礁海滩”冲浪时突然遭到一条大型鲨鱼袭击,后因伤势过重而身亡。 据悉,此事发生在当日9点30分左右,一名57岁的男性冲浪者与朋友在长礁海滩冲浪时,突然遭到一条大型鲨鱼的袭击。 目击者称,鲨鱼咬中男子身体要害部位,该男子被另外两名冲浪者救回岸上,但因失血过多死亡。 事发后,当地冲浪救生组织确认长礁海滩已被关闭,曼利和纳拉宾

今日大家都在搜的词: