首页 > 传媒 > 关键词  > AI挑战最新资讯  > 正文

高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二

2025-06-11 17:44 · 稿源: 站长之家用户

AI挑战全套高考数学题来了!

高考数学一结束,我们连夜使用六款大模型产品,按照一般用户截图提问的方式,挑战了14道最新高考客观题,不过有网友质疑测评过程不够严谨,所以这次我们加上解答题,重新测一遍。

本次参加挑战的选手分别是:Doubao-1.5-thinking-vision-pro、DeepSeek R1、Qwen3-235b、hunyuan-t1-latest、文心 X1Turbo、o3,并且新增网友们非常期待的 Gemini2.5pro。上一次我们使用网页端测试,这次除 o3外,其他模型全部调用 API。

在考题选择上,我们仍然采用2025年数学新课标 Ⅰ 卷,包含14道客观题,总计73分;5道解答题,总计77分。其中第6题由于涉及到图片,我们就单独摘出来,后面通过上传题目截图的形式针对多模态大模型进行评测。其他文本题目全部转成 latex 格式,分别投喂给大模型,还是老规矩,不做 System Prompt 引导,不开启联网搜索,直接输出结果。

(注:第17题虽然也涉及到图片,但文字表述足够清晰,不影响答题,因此也以 latex 格式测评。)

客观题计分方法按照以往高考判分原则:

单选题每道5分,选项正确计分,错误不得分;

多选题每道6分,全对计6分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣1.5分,错选不得分;

填空题每道5分,填空正确计分,错误不得分。

至于解答题,由于现在还未出具体的评分细则,所以我们请数学专业的朋友进行评判,主要还是看大模型的最终答案以及解题步骤中是否有严重失误点。

7家大模型考试成绩如下图所示。

从客观题来看,各家大模型几乎拉不开差距,最大分差也只有3分,第6题图像题更是让这几家多模态大模型「全军覆没」。在上一次测评中,o3客观题成绩垫底,但有网友表示,这可能是由于某些原因导致后台自动切换成其他模型,而这一次我们选用的是未「降智」的 o3,选择题和填空题成绩仍是排在最后,当然,65分的成绩相比「降智」版确实有很大提升。

解答题是大模型失分的「重灾区」。除了 Gemini2.5Pro 拿到全部的分数外,其它模型或多或少均有失分。其中 DeepSeek R1和 Doubao 最可惜,只丢了一分;o3则失了2分,最终得到75分。相较而言,hunyuan-t1-latest 和文心 X1Turbo 发挥不佳,分别拿到68分和66分。

从总分上来看,Gemini2.5Pro 考了145分,位列第一,Doubao 和 DeepSeek R1以144分紧随其后,并列第二;o3和 Qwen3也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1Turbo 的总成绩排到了最后两名。

解答题:大模型失分「重灾区」

我们先来看看解答题的情况。

第15题和第17题,一道考查概率问题,一道涉及立体几何知识,7家大模型均拿到满分。

第16题是一道数列综合题,满分15分,只要证明完整、计算过程完整、结果正确就能拿到全部的分数。大模型整体表现不错,只有 Qwen3解答正确,但最终答案里面增加了多余的假设求值,扣了一分。

第18题这道椭圆方程与几何就难倒了不少大模型,仅 Doubao、DeepSeek R1和 Gemini2.5Pro 拿到满分17分,其他模型各有各的扣分点。Qwen3前面回答得都不错,过程也很完整,但偏偏最后一小问|PQ|最大值取约等于9的步骤多余,导致结果偏差,扣了一分。

o3则是第(3)问答案没化简丢了一分。

文心 X1在第2问 (2) 正确算出 P 点轨迹,但未证明极值,直接按最远点计算造成结果错误,扣6分。

hunyuan-t1-latest 前两问中回答正确,到了第3问完成 P 点轨迹之后就全错了,一下子丢了5分。

对于最后一道压轴题,Gemini2.5pro 是唯一全对的大模型。Doubao 只说明了震荡项的振幅大于0,但是也有可能震荡项的相位是反的,那样的话最大值反而有可能更小,证明过程不够严谨,扣一分。

DeepSeek R1在第(3)问中分情况讨论,得出了两类解,但对第一类解未做后续说明,扣了一分。

o3第(2)问思路正确,但因为开闭区间差别,「完全重合」说法错误,扣1分。

hunyuan-t1-latest 在第(2)问上思路可行但证明过程模糊,扣2分,到了第(3)问没有判断 phi 取值,又扣了2分。

文心 X1和 Qwen3也都是在第2问和第3问上失了分,第2问证明模糊扣2分,第3问则是未具体说明 phi 值扣2分,而且文心 X1比大小还发生错误,又扣了1分。

客观题:一道图像题难倒几家多模态大模型

在不考虑识图题(第6题)的情况下,客观题大模型总体表现都不错,Doubao、Qwen3、Gemini2.5pro、DeepSeek R1、文心 X1Turbo 和 hunyuan-t1-latest 均取得了68分的高分,只有 o3在多选题上少选了一项丢了分。

其中,o3在第9题计算过程中,忽视了「正三棱柱」这一关键条件。它在建立坐标系时,分别用 (x₀, y₀,0) 表示 A 点坐标,用 (c,0,0) 表示 C 点坐标,但没有考虑到:正三棱柱的底面是正三角形,这意味着正三角形的边长 c 与 x₀、y₀之间存在关系:c=2x₀=2y₀/√3。导致对 B 选项的判断出现错误。

接下来看看这道图片题。

遗憾的是,此次测评的多模态大模型都在这道识图题上表现不佳。虽然 hunyuan-t1-latest 不是多模态,但我们又测试了 hunyuan-t1-vision ,也在这道题上败下阵来。

相比之下,Doubao 和 o3至少正确识别了坐标位置,只是误判了视风风速方向,而 Gemini 连基本坐标都未能正确识别。

总的来说,这次测评结果显示,大模型在数学推理能力上有不小的进步,但仍有较大的提升空间。比如不少模型在解答题上丢分,这反映出大模型在复杂推理、严谨论证和多步骤计算方面还需加强。

此外,所有参测的多模态大模型在第6题的图像识别上都出现了问题,这也暴露出当前 AI 在图文结合理解方面的短板。

最后,紧张的高考已经结束,祝福所有考生都能取得理想的成绩,有着灿烂的未来!

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 想象力智能中高考等教育品牌分析

    文章聚焦高考冲刺阶段家长如何选择提分产品。市面教育产品良莠不齐,存在师资模糊、错题多、服务差等问题。想象力智能中高考通过三大优势脱颖而出:1.名师团队与智能系统深度融合,精准定位薄弱点;2.动态迭代课程内容,紧跟考情变化;3.构建“测-学-练-固-汇”闭环服务体系,配备专属学管师。与速学霸、考试大师等产品形成鲜明对比,为考生提供真正高效可靠的提分方案。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • 如何检查你的网站是否被大模型引用?AI排名查询工具推荐

    本文探讨AI搜索时代网站流量获取新逻辑:传统SEO因Google搜索"零点击"现象失效,而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口,并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议:建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代,内容被LLM引用已成为新的流量生命线。

  • GEO时代:如何通过AI搜索可见性监控抢占品牌制高点

    随着AI搜索普及,传统SEO正被GEO(生成引擎优化)取代。品牌需在AI回答中保持高曝光和正面提及,这成为未来竞争力核心。文章提出GEO指数作为量化品牌在AI模型中被引用程度的关键指标,并介绍AIBase工具如何通过监控主流AI模型、分析竞争情报、追踪提示词等方式,帮助品牌精准掌握AI搜索可见性,实现从被动应对到主动管理的跨越。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • 【火柴AI必看】如何利用FB高效找客户:实战攻略全解析

    本文介绍在Facebook高效寻找客户的五大策略:明确目标客户画像,优化账号资料与内容,精准投放广告,积极互动建立关系,提供优质服务促成合作。强调持续优化策略才能在激烈市场中脱颖而出,助力业务拓展。

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • GEO时代必备:品牌AI搜索监控实操指南,用AIBase抢占AI可见性高地

    随着生成式AI成为主流信息入口,GEO(生成引擎优化)成为企业品牌曝光的关键。其核心是让品牌信息成为AI生成答案的首选引用源,而品牌AI搜索监控正是落地GEO策略的关键抓手。AIBase平台提供品牌监控服务,帮助企业精准追踪AI搜索可见性、解析GEO指数,实现数据驱动的优化。通过多平台覆盖、核心指标追踪和竞品对标分析,让品牌在AI生态中精准占位,提升权威性与可见性�

  • 以AI算力赋能湾区智算未来,博大数据副总裁高辉受邀启动“AI算力+”行动倡议

    2025年10月29日,第四届数字基础设施高质量发展大会在深圳召开,聚焦“AI驱动+算赋未来”主题,推动人工智能与算力设施深度融合。博大数据作为核心企业参与启动“AI算力+”行动倡议,联合政产学研共建算力生态。其前海智算中心以20亿元投资、5万平米规模,支持4万P算力,成为辐射华南及港澳的算力高地,助力深圳打造全球数字先锋城市,为千行百业智能化转型提供核心支撑。

  • AI搜索新战场:如何用GEO品牌监控抢占AI搜索排名高地?

    随着生成式AI崛起,传统SEO正转向GEO(生成引擎优化)。AIBase推出品牌监控服务,覆盖主流AI模型,通过三步流程帮助品牌追踪在AI回答中的提及率、语义画像及竞品动态,生成可视化报告。该工具能助企业掌握AI认知逻辑,优化内容策略,抢占生成式流量红利。

今日大家都在搜的词: