首页 > AI头条  > 正文

阿里巴巴Qwen2.5数学能力遭质疑:新研究揭示模型或依赖记忆而非推理

2025-07-21 08:58 · 来源: AIbase基地

据国外媒体报道, 一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑,指出其看似卓越的数学推理能力,可能主要来源于对训练数据的记忆,而非真正的推理。研究人员通过一系列严谨的测试发现,数据污染可能是导致Qwen2.5在某些基准测试中表现优异的关键因素。

数据污染浮出水面:干净基准下性能急剧下降

该研究的核心发现是,当Qwen2.5模型在训练期间从未见过的“干净”基准上进行测试时,其性能出现了急剧下降。这表明模型在“受污染”的基准测试中取得的进步,很大程度上是由于其在训练过程中已经接触过这些数据。

为了验证这一假设,研究团队进行了一项创新性实验:他们仅向Qwen2.5-Math-7B模型提供了MATH500基准测试的前60%题目,并要求其补全剩余的40%。结果令人震惊:Qwen2.5-Math-7B竟能以高达54.6%的准确率(53.6%的正确率)成功重建缺失部分。相比之下,Llama3.1-8B的准确率仅为3.8%(正确率为2.4%)。这一显著差异强烈暗示Qwen2.5在训练过程中已经“见过”这些问题。

QQ20250721-085713.png

LiveMathBench测试:Qwen2.5完成率降至零

研究人员随后使用LiveMathBench(版本202505)对Qwen2.5进行了测试。LiveMathBench是一个在Qwen2.5发布后才出现的“干净”基准测试,这意味着Qwen2.5不可能在训练过程中接触过其中的数据。在这一全新的数据集上,Qwen2.5的完成率骤降至零,与Llama模型表现相当,其答案准确率也仅剩2%。

研究指出,Qwen2.5可能已在大型在线数据集上进行了预训练,其中包括了包含基准问题及其解决方案的GitHub代码库。因此,即使在训练期间接收到随机或错误的奖励信号,模型也能因为事先接触过这些数据而提升其在MATH-500上的表现。

响应模板变化与合成数据验证

进一步的实验表明,当响应模板发生变化时,Qwen2.5模型在MATH-500上的性能会急剧下降,而Llama-3.1-8B几乎不受影响。这进一步支持了Qwen2.5对特定数据模式的依赖性。

为彻底排除记忆效应,研究团队还创建了RandomCalculation数据集,其中包含Qwen2.5发布后生成的完全合成的算术问题。在这些新问题上,Qwen2.5的准确率随着问题复杂度的增加而下降。只有正确的奖励信号才能提高模型表现,而随机奖励会导致训练不稳定,反向奖励甚至会降低其数学技能。受控的RLVR(可验证奖励的强化学习)实验也证实了这些结果:只有正确的奖励才能带来稳定的性能提升,随机或反向奖励则无法提高或主动降低性能。

对未来AI研究的启示

这些发现对Qwen2.5的数学能力是否反映真实推理能力提出了严重质疑,反而表明该模型严重依赖于记忆数据。阿里巴巴于2024年9月推出了Qwen2.5,随后又推出了Qwen3系列。这项研究的发现是否适用于Qwen3系列,仍有待观察。

该研究的作者警告称,受污染的基准测试可能导致关于人工智能进展的误导性结论。他们强调,未来的研究应依赖于干净、未受污染的基准,并评估多个模型系列以获得更可靠的结果。

基准测试的“游戏规则”

研究结果再次凸显了在大型语言模型中区分真实推理与记忆的难度,以及为何严谨、清晰的评估方法对于可靠的人工智能研究至关重要。此前已有研究表明,基准测试可能被操纵或“玩弄”。例如,Meta曾提交一个经过专门调优的Llama4版本,通过使用自定义响应格式在LMArena基准测试中表现优异。其他研究也显示,Gemini2.5Pro和Claude3.5Sonnet等模型能够以高达95%的准确率识别测试场景并调整其响应,这引发了对当前评估方法有效性的更广泛质疑。

  • 相关推荐
  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

  • 日均外卖2.5亿单,MAD都赢麻了

    ​MAD(美团、阿里、京东)外卖大战,经历了连续两个“疯狂星期六”后,正演变为一场颇为罕见的没有输家的战争。 从今年2月11日京东外卖上线算起,外卖“三国杀”已经打了150天。美团、淘宝和京东三大平台你来我往,远未分出胜负,却把整个外卖(含非餐饮品类)市场的总规模打到了战前的三倍以上。 根据各平台的最新战报,美团即时零售订单已达1.5亿单,淘宝闪购

  • 阿里巴巴发布全球首个胃癌影像筛查AI模型:CT就能识别早期胃癌

    浙江省肿瘤医院联合阿里巴巴达摩院,发布了全球首个胃癌影像筛查AI模型DAMO GRAPE。 该模型首次利用平扫CT影像识别早期胃癌病灶,并联合全国20家医院,在近10万人的大规模临床研究中大幅提升胃癌检出率。 相关论文在24日登上了国际顶级期刊《自然医学》(Nature Medicine)。 据国家癌症中心统计,我国每年新发胃癌约36万例,死亡26万例,死亡人数在所有恶性肿瘤中位列第�

  • 可灵AI推出可图2.1模型 多维能力跃升、会员限时7天免费

    可灵AI于7月10日上线可图2.1模型,图片生成能力全面升级:1)指令遵循能力显著提升,可精准捕捉复杂提示细节;2)新增180多种风格响应,支持特殊材质、数字艺术等创作需求;3)人像美感大幅优化,肌肤纹理与光影效果更自然;4)增强电影质感生成,能呈现大片级层次氛围;5)文字生成效果提升,支持中英文营销海报等设计。即日起面向会员免费开放7天,实测显示该模型在复杂场景还原和细节表现上达到新高度,累计已生成超3亿张图片。

  • AI日报:阿里通义推Qwen-TTS模型;Cursor已支持网页和手机端;字节发布图像合成技术XVerse

    【AI日报】今日AI领域7大突破:1)阿里通义Qwen-TTS实现方言语音合成重大突破;2)Cursor发布Web版AI编程工具;3)字节XVerse技术实现多对象精准图像生成;4)NoteGen跨平台AI笔记工具革新知识管理;5)ManimML动画库可视化Transformer架构;6)TEN+Agent开源语音交互技术降低延迟;7)Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。

  • 重庆暴雨后村民捡到280斤大鱼:长2.5米 一人抱不动

    ​近日,重庆多地遭遇强降雨侵袭,至 9 日下午 3 时,城区积水虽已消退,但部分低洼地带仍残留近 1 米深的积水。在这场极端天气过后,巴南区某村庄上演了一幕令人瞠目结舌的场景—— 20 余名村民在河滩泥沼中发现一条体长2. 5 米、重达 280 斤的巨型野生大口鲶,相关视频在网络平台引发热议。 据现场目击者描述,这条大鱼鱼身长度超过成年男子身高,尾鳍拍打泥浆时发�

  • 小狗遭主人2次扔弃哀嚎仍被丢:哀嚎折返仍被遗弃

    7月8日凌晨,甘肃兰州一段令人揪心的视频在网络上迅速热传,引发众多网友的愤怒与关注。视频画面中,两名年轻人做出了令人发指的行为,他们多次将一只白色小狗强行扔进绿化带。 这只可怜的小狗在遭受如此对待时,不断发出凄惨的哀鸣,它挣扎着试图折返回到主人身边,眼神中满是无助与渴望。然而,它的信任和依赖换来的却是主人更残酷的举动,主人再次将它扔到�

  • 在质疑声中前行:谢海玉用数据回应所有偏见

    谢海玉在科研困境中坚持探索的故事。他连续37天熬夜实验却数据不理想,向海外学者求助只得到过时数据。面对质疑和团队危机,他通过上万组数据验证猜想,最终将冷门领域变成显学。2019年实验平台突发故障时,他独自排查三天找到问题,带领团队通宵补救并发现新方法。如今他仍保持泡实验室的习惯,常对学生说科研就像在黑暗中挖隧道,每挖一厘米就更接近光明。

  • 小狗遭主人2次扔弃哀嚎仍被遗弃:完全不顾其死活

    ​近日,一段令人心碎的视频在网络上迅速传播,引发了广大网友的愤怒与关注。视频中,7月8日凌晨在甘肃兰州,一只白色小狗遭遇了主人无情的两次遗弃。画面显示,两名年轻人多次将这只小狗强行扔进绿化带,小狗不断发出凄惨的哀鸣,挣扎着试图折返回到主人身边,眼神中满是无助与渴望。然而,它的信任和依赖换来的却是主人更残酷的举动,每次它试图靠近,都被无

  • K2发布后,Kimi 研究员集体在X和知乎上搞起了“团建”

    Kimi K2的发布几乎没什么预兆。 2025年7月11日深夜,月之暗面直接开源了这个万亿参数模型,整个AI圈子一下子就热闹起来。模型的能力很强,尤其是在代码和Agent任务上,没多久,它就和Grok4一起出现在了马斯克转发的热门模型趋势榜单上。

今日大家都在搜的词: