首页 > 传媒 > 关键词  > AI挑战最新资讯  > 正文

高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二

2025-06-11 17:44 · 稿源: 站长之家用户

AI挑战全套高考数学题来了!

高考数学一结束,我们连夜使用六款大模型产品,按照一般用户截图提问的方式,挑战了14道最新高考客观题,不过有网友质疑测评过程不够严谨,所以这次我们加上解答题,重新测一遍。

本次参加挑战的选手分别是:Doubao-1.5-thinking-vision-pro、DeepSeek R1、Qwen3-235b、hunyuan-t1-latest、文心 X1Turbo、o3,并且新增网友们非常期待的 Gemini2.5pro。上一次我们使用网页端测试,这次除 o3外,其他模型全部调用 API。

在考题选择上,我们仍然采用2025年数学新课标 Ⅰ 卷,包含14道客观题,总计73分;5道解答题,总计77分。其中第6题由于涉及到图片,我们就单独摘出来,后面通过上传题目截图的形式针对多模态大模型进行评测。其他文本题目全部转成 latex 格式,分别投喂给大模型,还是老规矩,不做 System Prompt 引导,不开启联网搜索,直接输出结果。

(注:第17题虽然也涉及到图片,但文字表述足够清晰,不影响答题,因此也以 latex 格式测评。)

客观题计分方法按照以往高考判分原则:

单选题每道5分,选项正确计分,错误不得分;

多选题每道6分,全对计6分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣1.5分,错选不得分;

填空题每道5分,填空正确计分,错误不得分。

至于解答题,由于现在还未出具体的评分细则,所以我们请数学专业的朋友进行评判,主要还是看大模型的最终答案以及解题步骤中是否有严重失误点。

7家大模型考试成绩如下图所示。

从客观题来看,各家大模型几乎拉不开差距,最大分差也只有3分,第6题图像题更是让这几家多模态大模型「全军覆没」。在上一次测评中,o3客观题成绩垫底,但有网友表示,这可能是由于某些原因导致后台自动切换成其他模型,而这一次我们选用的是未「降智」的 o3,选择题和填空题成绩仍是排在最后,当然,65分的成绩相比「降智」版确实有很大提升。

解答题是大模型失分的「重灾区」。除了 Gemini2.5Pro 拿到全部的分数外,其它模型或多或少均有失分。其中 DeepSeek R1和 Doubao 最可惜,只丢了一分;o3则失了2分,最终得到75分。相较而言,hunyuan-t1-latest 和文心 X1Turbo 发挥不佳,分别拿到68分和66分。

从总分上来看,Gemini2.5Pro 考了145分,位列第一,Doubao 和 DeepSeek R1以144分紧随其后,并列第二;o3和 Qwen3也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1Turbo 的总成绩排到了最后两名。

解答题:大模型失分「重灾区」

我们先来看看解答题的情况。

第15题和第17题,一道考查概率问题,一道涉及立体几何知识,7家大模型均拿到满分。

第16题是一道数列综合题,满分15分,只要证明完整、计算过程完整、结果正确就能拿到全部的分数。大模型整体表现不错,只有 Qwen3解答正确,但最终答案里面增加了多余的假设求值,扣了一分。

第18题这道椭圆方程与几何就难倒了不少大模型,仅 Doubao、DeepSeek R1和 Gemini2.5Pro 拿到满分17分,其他模型各有各的扣分点。Qwen3前面回答得都不错,过程也很完整,但偏偏最后一小问|PQ|最大值取约等于9的步骤多余,导致结果偏差,扣了一分。

o3则是第(3)问答案没化简丢了一分。

文心 X1在第2问 (2) 正确算出 P 点轨迹,但未证明极值,直接按最远点计算造成结果错误,扣6分。

hunyuan-t1-latest 前两问中回答正确,到了第3问完成 P 点轨迹之后就全错了,一下子丢了5分。

对于最后一道压轴题,Gemini2.5pro 是唯一全对的大模型。Doubao 只说明了震荡项的振幅大于0,但是也有可能震荡项的相位是反的,那样的话最大值反而有可能更小,证明过程不够严谨,扣一分。

DeepSeek R1在第(3)问中分情况讨论,得出了两类解,但对第一类解未做后续说明,扣了一分。

o3第(2)问思路正确,但因为开闭区间差别,「完全重合」说法错误,扣1分。

hunyuan-t1-latest 在第(2)问上思路可行但证明过程模糊,扣2分,到了第(3)问没有判断 phi 取值,又扣了2分。

文心 X1和 Qwen3也都是在第2问和第3问上失了分,第2问证明模糊扣2分,第3问则是未具体说明 phi 值扣2分,而且文心 X1比大小还发生错误,又扣了1分。

客观题:一道图像题难倒几家多模态大模型

在不考虑识图题(第6题)的情况下,客观题大模型总体表现都不错,Doubao、Qwen3、Gemini2.5pro、DeepSeek R1、文心 X1Turbo 和 hunyuan-t1-latest 均取得了68分的高分,只有 o3在多选题上少选了一项丢了分。

其中,o3在第9题计算过程中,忽视了「正三棱柱」这一关键条件。它在建立坐标系时,分别用 (x₀, y₀,0) 表示 A 点坐标,用 (c,0,0) 表示 C 点坐标,但没有考虑到:正三棱柱的底面是正三角形,这意味着正三角形的边长 c 与 x₀、y₀之间存在关系:c=2x₀=2y₀/√3。导致对 B 选项的判断出现错误。

接下来看看这道图片题。

遗憾的是,此次测评的多模态大模型都在这道识图题上表现不佳。虽然 hunyuan-t1-latest 不是多模态,但我们又测试了 hunyuan-t1-vision ,也在这道题上败下阵来。

相比之下,Doubao 和 o3至少正确识别了坐标位置,只是误判了视风风速方向,而 Gemini 连基本坐标都未能正确识别。

总的来说,这次测评结果显示,大模型在数学推理能力上有不小的进步,但仍有较大的提升空间。比如不少模型在解答题上丢分,这反映出大模型在复杂推理、严谨论证和多步骤计算方面还需加强。

此外,所有参测的多模态大模型在第6题的图像识别上都出现了问题,这也暴露出当前 AI 在图文结合理解方面的短板。

最后,紧张的高考已经结束,祝福所有考生都能取得理想的成绩,有着灿烂的未来!

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 华为小艺AI竞赛Agent首战国际数学奥林匹克大赛(IMO)荣获佳绩!

    华为AI"小艺"在2025年国际数学奥赛(IMO)中斩获银牌,以34分(满分42分)的成绩仅落后金牌线1分。其创新性的"自然语言大模型+形式化证明"双脑协同架构,攻克了5道难题,其中4道获满分。该系统通过"思维风暴"生成多样化解题思路,再经"AI同行评审"筛选最优方案,并融合形式化验证反馈进行迭代优化。这一突破标志着AI在复杂数学推理领域达到新高度,未来将赋能教育领域,推动智能解题方法创新。IMO主席Gregor Dolinar教授评价其答卷"展现了非凡的成就"。

  • 新高考备考策略升级,新版学魁榜《母题清单》引领高效学习新风向!

    随着新高考改革深入实施,高考命题呈现灵活多变趋势,对考生综合能力要求更高。学魁榜推出新版《学魁母题清单》,由清北等名校学霸教研团队打造,精准匹配新高考命题方向。该书采用"学、练、查"三册一体设计,新增创新题型和九省联考真题解析,配套智能视频讲解,帮助学生掌握"学一题通一类"的高效学习方法。通过母题深度剖析和变式训练,提升学生解题能力,避免无效学习,助力考生在新高考中脱颖而出。

  • 哪个大模型性价比最高?用这个 AI 大模型费用计算器轻松比价

    AI大模型快速发展,但不同厂商的定价规则差异大,导致选择困难。AIbase推出的AI大模型费用计算器(https://model.aibase.com/zh/calculator)能帮助开发者快速比较主流模型的调用成本。该工具覆盖GPT-4、Claude、文心一言等国内外热门模型,支持输入输出分开计费,实时更新官方定价,无需注册即可使用。用户只需输入文本,系统自动拆分token数并精准计算费用,结果清晰直观可排序。建议根据场景需求选择模型:平衡成本与性能可选GPT-4o、DeepSeek-V2;高精度需求选GPT-4 Turbo;中文场景优选国产模型。使用前通过计算器模拟成本,可避免项目超支风险。

  • AI大模型对比完全指南:如何选择最适合你的大模型?

    文章探讨了当前AI大模型市场众多选择带来的选择困难问题。面对GPT-4、Claude、文心一言等各具特色的模型,普通用户和企业难以科学评估和选择。文章提出了一套完整的评估体系,包括基础能力、技术性能、应用场景和商业考量四个维度,并建议采用标准化测试和实际场景验证相结合的方法。同时介绍了2025年主流AI模型的特点:GPT-4o在多模态交互领先,Claude3在编程和逻辑分析突出,Gemini2.5擅长长文本处理,国产DeepSeek则以高性价比见长。最后强调选择AI模型应基于具体需求,而非简单追求性能排名,建议通过专业对比平台和实际测试来验证。

  • 如何科学比价AI大模型?一文教你用好这个AI大模型比价免费计算工具

    本文探讨了当前AI大模型调用成本计算的重要性,介绍了AIbase费用计算器的实用功能。主要内容包括:1)不同厂商计费方式差异大,存在token/字符/调用次数等不同标准;2)AIbase工具支持主流模型费用对比,实时更新官方价格;3)提供输入输出分开计费模拟,支持自定义参数和结果排序;4)完全免费无需登录,适合快速查询。文章还给出选型建议:轻量任务选Claude Instant等低成本模�

  • AI大模型那么多,该如何科学对比选型?

    文章探讨了当前AI大模型选择的困境,指出随着国内外模型数量激增,用户面临选择难题。作者提出应从实际需求出发,考虑模型能力、成本、使用方式、中文支持等核心维度,避免只看参数规模或流行度的误区。特别推荐使用AIbase模型广场等对比工具,可快速比较多个模型的详细参数、调用方式和价格差异。文章以中文写作为例,对比了通义千问、月之暗面、文心一言和GPT-4�

  • 如何精准锁定高性价比的AI大模型?AIbase AI模型费用计算器助力开发者省心省钱选模型

    文章探讨了在预算有限的情况下如何选择合适的大模型API。面对GPT-4、Claude2、Llama2等数十种模型,开发者常陷入选择困境:既要考虑性能,又要兼顾成本。不同厂商的计费机制复杂多样(按Token、请求次数或时间),手动计算耗时且容易出错。文章推荐使用AIbase的AI模型费用计算器,该工具聚合主流模型定价数据,支持可视化交互计算,能快速比较不同场景下的使用成本,帮助�

  • 调动不同AI大模型费用怎么算?AI模型费用计算神器算清每一分投入!

    本文探讨了企业在调用不同AI大模型时的费用计算问题。随着GPT-4、Claude、文心一言等模型广泛应用,各厂商的计费规则差异显著:有的按Token收费,有的按调用次数,还有地区定价差异。相同任务在不同模型上的成本可能相差10倍。文章推荐使用AIbase费用计算器(https://model.aibase.com/zh/calculator),该工具覆盖主流模型,支持自定义参数,能快速对比不同模型的调用成本,帮助企业实现精准预算控制,选择最具性价比的AI服务方案。

  • 2025年国内AI大模型哪家强?上AI大模型选型对比工具,用数据说话!

    文章分析了国内AI大模型市场竞争格局,指出百度、阿里、腾讯、字节等科技巨头与初创公司纷纷布局,呈现繁荣景象。针对用户选型难题,提出需综合考虑参数规模、场景适配、成本效益等关键因素,并介绍了AIbase推出的AI大模型选型对比工具。该工具汇集主流模型最新数据,支持多维度能力对比和场景化筛选,帮助用户快速定位最适合自身需求的模型。最后强调没有"最强"的通用模型,只有最匹配特定场景的解决方案。

  • 儿子高考不理想:父亲让他学碳弧气刨

    据媒体报道,安徽一位父亲称,他的孩子高考考了404分,这几天让他学习碳弧气刨。 据了解,碳弧气刨是使用碳棒或石墨棒作电极,与工件间产生电弧,将金属熔化,并用压缩空气将熔化金属吹除的一种表面加工沟槽的方法。 父亲表示,干这行非常苦,热天穿得像粽子一样,但收入还可以,最终会不会填报志愿要看儿子的意愿。 评论区有网友表示,高考不是唯一道路,孩�