阿里巴巴Qwen2.5数学能力遭质疑:新研究揭示模型或依赖记忆而非推理

2025-07-21 08:58 · 来源： AIbase基地

据国外媒体报道，一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑，指出其看似卓越的数学推理能力，可能主要来源于对训练数据的记忆，而非真正的推理。研究人员通过一系列严谨的测试发现，数据污染可能是导致Qwen2.5在某些基准测试中表现优异的关键因素。

数据污染浮出水面:干净基准下性能急剧下降

该研究的核心发现是，当Qwen2.5模型在训练期间从未见过的“干净”基准上进行测试时，其性能出现了急剧下降。这表明模型在“受污染”的基准测试中取得的进步，很大程度上是由于其在训练过程中已经接触过这些数据。

为了验证这一假设，研究团队进行了一项创新性实验:他们仅向Qwen2.5-Math-7B模型提供了MATH500基准测试的前60%题目，并要求其补全剩余的40%。结果令人震惊:Qwen2.5-Math-7B竟能以高达54.6%的准确率（53.6%的正确率）成功重建缺失部分。相比之下，Llama3.1-8B的准确率仅为3.8%(正确率为2.4%)。这一显著差异强烈暗示Qwen2.5在训练过程中已经“见过”这些问题。

LiveMathBench测试:Qwen2.5完成率降至零

研究人员随后使用LiveMathBench（版本202505）对Qwen2.5进行了测试。LiveMathBench是一个在Qwen2.5发布后才出现的“干净”基准测试，这意味着Qwen2.5不可能在训练过程中接触过其中的数据。在这一全新的数据集上，Qwen2.5的完成率骤降至零，与Llama模型表现相当，其答案准确率也仅剩2%。

研究指出，Qwen2.5可能已在大型在线数据集上进行了预训练，其中包括了包含基准问题及其解决方案的GitHub代码库。因此，即使在训练期间接收到随机或错误的奖励信号，模型也能因为事先接触过这些数据而提升其在MATH-500上的表现。

响应模板变化与合成数据验证

进一步的实验表明，当响应模板发生变化时，Qwen2.5模型在MATH-500上的性能会急剧下降，而Llama-3.1-8B几乎不受影响。这进一步支持了Qwen2.5对特定数据模式的依赖性。

为彻底排除记忆效应，研究团队还创建了RandomCalculation数据集，其中包含Qwen2.5发布后生成的完全合成的算术问题。在这些新问题上，Qwen2.5的准确率随着问题复杂度的增加而下降。只有正确的奖励信号才能提高模型表现，而随机奖励会导致训练不稳定，反向奖励甚至会降低其数学技能。受控的RLVR（可验证奖励的强化学习）实验也证实了这些结果:只有正确的奖励才能带来稳定的性能提升，随机或反向奖励则无法提高或主动降低性能。

对未来AI研究的启示

这些发现对Qwen2.5的数学能力是否反映真实推理能力提出了严重质疑，反而表明该模型严重依赖于记忆数据。阿里巴巴于2024年9月推出了Qwen2.5，随后又推出了Qwen3系列。这项研究的发现是否适用于Qwen3系列，仍有待观察。

该研究的作者警告称，受污染的基准测试可能导致关于人工智能进展的误导性结论。他们强调，未来的研究应依赖于干净、未受污染的基准，并评估多个模型系列以获得更可靠的结果。

基准测试的“游戏规则”

研究结果再次凸显了在大型语言模型中区分真实推理与记忆的难度，以及为何严谨、清晰的评估方法对于可靠的人工智能研究至关重要。此前已有研究表明，基准测试可能被操纵或“玩弄”。例如，Meta曾提交一个经过专门调优的Llama4版本，通过使用自定义响应格式在LMArena基准测试中表现优异。其他研究也显示，Gemini2.5Pro和Claude3.5Sonnet等模型能够以高达95%的准确率识别测试场景并调整其响应，这引发了对当前评估方法有效性的更广泛质疑。

相关推荐

荐AI日报：国产版Nano Banana？即梦图片4.0发布；阿里巴巴发布 Qwen3-Max-Preview；上海重磅发布AI广告扶持政策

AI日报栏目聚焦人工智能领域最新动态。主要内容包括：即梦图集4.0发布，新增文生图、图像编辑等功能；阿里巴巴推出超万亿参数语言模型Qwen3-Max-Preview；小米AI眼镜上线支付宝“看一看”支付功能；微软开源14B参数模型rStar2-Agent在数学推理领域表现突出；MiniMax启动股权激励计划覆盖核心员工；谷歌明确Gemini使用限制，免费用户每日最多5次提示；上海发布AI广告扶持政策，最高补贴500万元。这些进展展示了AI技术在图像处理、语言模型、智能支付等领域的创新应用。

AI 图像处理文生图
行业首个！华为Mate XTs非凡大师接入中国地震局数据：预警能力提升2.5倍

在今天的华为Mate XTs非凡大师及全场景新品发布会上，余承东宣布华为Mate XTs非凡大师三折叠屏手机接入了中国地震局数据，这也是行业首个接入中国地震局数据的手机。据介绍，接入中国地震局数据后，华为Mate XTs非凡大师能够实时联通全国1.5万个专业地震观察站点，将地震预警能力提升2.5倍，实现全国重点地区的秒级地震预警。

华为Mate XTs 三折叠屏手机
AI能力获权威认可，易鑫荣登“2025 AI Era企业创新大奖TOP55”

易鑫集团凭借突出的科技创新能力及多项AI技术落地成果，荣登“2025AI+Era企业创新大奖TOP55”榜单，成为榜单上唯一的汽车金融科技领域代表。该奖项由新智元发起，旨在评选AI领域具有卓越市场竞争力和创新力的标杆企业。易鑫自研的AI技术已全面应用于汽车金融全场景，显著提升服务效率与用户体验，并通过科技解决方案赋能海内外合作伙伴，展现出优秀的商业化落地与跨区域扩展能力。公司将持续推进AI创新与业务深度融合，助力合作伙伴和用户共享科技红利。

AI技术企业创新汽车金融科技
Kimi K2模型更新至0905版本：更强代码能力更快API性能

月之暗面科技有限公司宣布其Kimi K2模型更新至0905版本，带来更强的代码能力和更快的API性能。此次更新进一步提升了Kimi K2在真实编程任务中的表现，特别是在公开基准测试和实际编程任务中展现出更好的性能。 Kimi K2模型的Agentic Coding能力得到显著提升，这使得它在处理复杂的编程任务时更加高效。同时，前端编程体验也得到了升级，生成的代码不仅更加美观，而且更具实用

Kimi K2模型代码能力提升
腾讯9篇论文入选数据库顶会VLDB 2025，前沿研究服务亿级业务场景

腾讯在VLDB2025顶会上入选9篇论文，覆盖分布式事务调度、混合并发控制、OLTP负载压缩、时序图计算、NL2SQL等前沿领域。与人大、华科、复旦等高校合作成果已在微信、广告等业务落地，提升性能4.8倍，优化速度提高40倍，NL2SQL准确率提升18%。部分技术集成至腾讯云TDSQL，应用于金融、政务、电商等行业，推动全球数据库基础设施持续演进。

分布式事务调度混合并发控制 OLTP负载压缩
2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架，强调需超越单一指标崇拜，基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析，展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程，采用专业工具进行多维度评估，通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型，而非盲目追求流行模型。
法国一受虐博主在直播中死亡平台监管遭质疑

8 月 18 日，法国发生一起令人痛心且震惊的事件，一名以受虐内容吸引流量的博主在直播中不幸身亡，引发社会广泛关注，同时其所在平台也被指控监管不力。他通过在直播中遭受他人虐待或羞辱的方式吸引流量，直播内容触目惊心，包括被锁喉、殴打、泼冷水、电击、高温桑拿、酒精灌胃等极端行为。

直播虐待博主死亡平台监管
荐AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”发布；谷歌推全新Gemini 2.5 Flash图像编辑模型

本文汇总了AI领域最新动态：谷歌推出Gemini 2.5 Flash图像编辑模型，字节发布Waver 1.0视频生成工具；百度“梯子AI”提供无广告搜索；文心快码新增终端编码功能；腾讯游戏VISVISE工具集提升动画制作效率；自动驾驶配送机器人RM5进军外卖行业；DeepSeek V3.1出现字符Bug已修复；谷歌翻译升级实时同传和AI陪练；全球首现AI勒索软件PromptLock威胁网络安全；Anthropic推出Chrome浏览器AI助手Claude。

AI Gemini 2.5
退休外科医生做饭切肉宛如做手术或已形成肌肉记忆

近日，一位退休外科医生在家中厨房做饭时，凭借其精细的切肉手法引发关注。只见他手持菜刀，动作严谨而精准，每一刀落下都仿佛是在进行一场精细的手术操作，让人不禁感叹职业习惯的强大延续性。据目击者描述，这位医生在切肉时全神贯注，眼神专注而锐利，仿佛面前的不是一块普通的肉，而是一个需要精心修复的“患者”。他的刀工了得，每一片肉都切得薄厚均

退休外科医生精细切肉职业习惯
今年第三起！澳大利亚男子冲浪时遭鲨鱼袭击身亡

澳大利亚悉尼一男子在长礁海滩”冲浪时突然遭到一条大型鲨鱼袭击，后因伤势过重而身亡。据悉，此事发生在当日9点30分左右，一名57岁的男性冲浪者与朋友在长礁海滩冲浪时，突然遭到一条大型鲨鱼的袭击。目击者称，鲨鱼咬中男子身体要害部位，该男子被另外两名冲浪者救回岸上，但因失血过多死亡。事发后，当地冲浪救生组织确认长礁海滩已被关闭，曼利和纳拉宾

鲨鱼袭击悉尼海滩冲浪事故

今日大家都在搜的词：

热文

3 天
7天

阿里巴巴Qwen2.5数学能力遭质疑:新研究揭示模型或依赖记忆而非推理

数据污染浮出水面:干净基准下性能急剧下降

LiveMathBench测试:Qwen2.5完成率降至零

响应模板变化与合成数据验证

对未来AI研究的启示

基准测试的“游戏规则”

荐AI日报：国产版Nano Banana？即梦图片4.0发布；阿里巴巴发布 Qwen3-Max-Preview；上海重磅发布AI广告扶持政策

行业首个！华为Mate XTs非凡大师接入中国地震局数据：预警能力提升2.5倍

AI能力获权威认可，易鑫荣登“2025 AI Era企业创新大奖TOP55”

Kimi K2模型更新至0905版本：更强代码能力更快API性能

腾讯9篇论文入选数据库顶会VLDB 2025，前沿研究服务亿级业务场景

2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

法国一受虐博主在直播中死亡平台监管遭质疑

荐AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”发布；谷歌推全新Gemini 2.5 Flash图像编辑模型

退休外科医生做饭切肉宛如做手术或已形成肌肉记忆

今年第三起！澳大利亚男子冲浪时遭鲨鱼袭击身亡

今日大家都在搜的词：

热文

苹果发布会前瞻：最大看点iPhone Air iPhone17或成国内首款无卡

为什么微信上那么多人住在安道尔上热搜：这些因素导致

iPhone 17系列今晚发布：苹果发布会新品揭晓

AI日报：国产版Nano Banana？即梦图片4.0发布；阿里巴巴发布 Q

魅族22官宣9月15日发布：外观、配置公布

预售16.98万起！尚界H5 小订量破 8 万

小米王腾因泄密被辞退曾单独签署保密协议

小米自带线充电宝20000 67W开售：售价179元

高通骁龙峰会定档9月24日：将发布骁龙8 Elite Gen5

王腾更新脉脉小米工作经历配流汗表情

苹果发布会前瞻：最大看点iPhone Air iPhone17或成国内首款无卡

为什么微信上那么多人住在安道尔上热搜：这些因素导致

iPhone 17系列今晚发布：苹果发布会新品揭晓

AI日报：国产版Nano Banana？即梦图片4.0发布；阿里巴巴发布 Q

AI日报：拍我AI接入Nano Banana；腾讯智影暂停服务；京东自研京

雷军第90次健身房打卡距离健身目标仅剩10次

魅族22官宣9月15日发布：外观、配置公布

全新问界M7开售1小时订单破10万售价28.8万元起

预售16.98万起！尚界H5 小订量破 8 万

小米王腾因泄密被辞退曾单独签署保密协议

站长商机