首页 > 传媒 > 关键词  > AI挑战最新资讯  > 正文

高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二

2025-06-11 17:44 · 稿源: 站长之家用户

AI挑战全套高考数学题来了!

高考数学一结束,我们连夜使用六款大模型产品,按照一般用户截图提问的方式,挑战了14道最新高考客观题,不过有网友质疑测评过程不够严谨,所以这次我们加上解答题,重新测一遍。

本次参加挑战的选手分别是:Doubao-1.5-thinking-vision-pro、DeepSeek R1、Qwen3-235b、hunyuan-t1-latest、文心 X1Turbo、o3,并且新增网友们非常期待的 Gemini2.5pro。上一次我们使用网页端测试,这次除 o3外,其他模型全部调用 API。

在考题选择上,我们仍然采用2025年数学新课标 Ⅰ 卷,包含14道客观题,总计73分;5道解答题,总计77分。其中第6题由于涉及到图片,我们就单独摘出来,后面通过上传题目截图的形式针对多模态大模型进行评测。其他文本题目全部转成 latex 格式,分别投喂给大模型,还是老规矩,不做 System Prompt 引导,不开启联网搜索,直接输出结果。

(注:第17题虽然也涉及到图片,但文字表述足够清晰,不影响答题,因此也以 latex 格式测评。)

客观题计分方法按照以往高考判分原则:

单选题每道5分,选项正确计分,错误不得分;

多选题每道6分,全对计6分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣1.5分,错选不得分;

填空题每道5分,填空正确计分,错误不得分。

至于解答题,由于现在还未出具体的评分细则,所以我们请数学专业的朋友进行评判,主要还是看大模型的最终答案以及解题步骤中是否有严重失误点。

7家大模型考试成绩如下图所示。

1.jpg

从客观题来看,各家大模型几乎拉不开差距,最大分差也只有3分,第6题图像题更是让这几家多模态大模型「全军覆没」。在上一次测评中,o3客观题成绩垫底,但有网友表示,这可能是由于某些原因导致后台自动切换成其他模型,而这一次我们选用的是未「降智」的 o3,选择题和填空题成绩仍是排在最后,当然,65分的成绩相比「降智」版确实有很大提升。

解答题是大模型失分的「重灾区」。除了 Gemini2.5Pro 拿到全部的分数外,其它模型或多或少均有失分。其中 DeepSeek R1和 Doubao 最可惜,只丢了一分;o3则失了2分,最终得到75分。相较而言,hunyuan-t1-latest 和文心 X1Turbo 发挥不佳,分别拿到68分和66分。

从总分上来看,Gemini2.5Pro 考了145分,位列第一,Doubao 和 DeepSeek R1以144分紧随其后,并列第二;o3和 Qwen3也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1Turbo 的总成绩排到了最后两名。

解答题:大模型失分「重灾区」

我们先来看看解答题的情况。

2.jpg

第15题和第17题,一道考查概率问题,一道涉及立体几何知识,7家大模型均拿到满分。

第16题是一道数列综合题,满分15分,只要证明完整、计算过程完整、结果正确就能拿到全部的分数。大模型整体表现不错,只有 Qwen3解答正确,但最终答案里面增加了多余的假设求值,扣了一分。

3.jpg

第18题这道椭圆方程与几何就难倒了不少大模型,仅 Doubao、DeepSeek R1和 Gemini2.5Pro 拿到满分17分,其他模型各有各的扣分点。Qwen3前面回答得都不错,过程也很完整,但偏偏最后一小问|PQ|最大值取约等于9的步骤多余,导致结果偏差,扣了一分。

4.jpg

o3则是第(3)问答案没化简丢了一分。

5.jpg

文心 X1在第2问 (2) 正确算出 P 点轨迹,但未证明极值,直接按最远点计算造成结果错误,扣6分。

6.jpg

hunyuan-t1-latest 前两问中回答正确,到了第3问完成 P 点轨迹之后就全错了,一下子丢了5分。

7.jpg

对于最后一道压轴题,Gemini2.5pro 是唯一全对的大模型。Doubao 只说明了震荡项的振幅大于0,但是也有可能震荡项的相位是反的,那样的话最大值反而有可能更小,证明过程不够严谨,扣一分。

8.jpg

DeepSeek R1在第(3)问中分情况讨论,得出了两类解,但对第一类解未做后续说明,扣了一分。

9.jpg

o3第(2)问思路正确,但因为开闭区间差别,「完全重合」说法错误,扣1分。

10.jpg

hunyuan-t1-latest 在第(2)问上思路可行但证明过程模糊,扣2分,到了第(3)问没有判断 phi 取值,又扣了2分。

640.webp.png

文心 X1和 Qwen3也都是在第2问和第3问上失了分,第2问证明模糊扣2分,第3问则是未具体说明 phi 值扣2分,而且文心 X1比大小还发生错误,又扣了1分。

12.jpg

0102.jpg

客观题:一道图像题难倒几家多模态大模型

在不考虑识图题(第6题)的情况下,客观题大模型总体表现都不错,Doubao、Qwen3、Gemini2.5pro、DeepSeek R1、文心 X1Turbo 和 hunyuan-t1-latest 均取得了68分的高分,只有 o3在多选题上少选了一项丢了分。

13.jpg

其中,o3在第9题计算过程中,忽视了「正三棱柱」这一关键条件。它在建立坐标系时,分别用 (x₀, y₀,0) 表示 A 点坐标,用 (c,0,0) 表示 C 点坐标,但没有考虑到:正三棱柱的底面是正三角形,这意味着正三角形的边长 c 与 x₀、y₀之间存在关系:c=2x₀=2y₀/√3。导致对 B 选项的判断出现错误。

14.jpg

接下来看看这道图片题。

15.jpg

遗憾的是,此次测评的多模态大模型都在这道识图题上表现不佳。虽然 hunyuan-t1-latest 不是多模态,但我们又测试了 hunyuan-t1-vision ,也在这道题上败下阵来。

16.jpg

相比之下,Doubao 和 o3至少正确识别了坐标位置,只是误判了视风风速方向,而 Gemini 连基本坐标都未能正确识别。

17.jpg

02.jpg

03.jpg

总的来说,这次测评结果显示,大模型在数学推理能力上有不小的进步,但仍有较大的提升空间。比如不少模型在解答题上丢分,这反映出大模型在复杂推理、严谨论证和多步骤计算方面还需加强。

此外,所有参测的多模态大模型在第6题的图像识别上都出现了问题,这也暴露出当前 AI 在图文结合理解方面的短板。

最后,紧张的高考已经结束,祝福所有考生都能取得理想的成绩,有着灿烂的未来!

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 利用DeepSeek和豆包生成工作总结

    本文介绍如何利用AI工具快速撰写高质量工作总结。通过DeepSeek生成内容框架,再使用豆包填充具体内容,可大幅提升写作效率。操作步骤:1)在DeepSeek输入需求获取大纲;2)将大纲粘贴至豆包生成详细内容;3)根据需要进行调整优化。该方法适用于教师学期总结、员工季度报告、项目总结等多种场景,能有效节省时间精力,提升工作效率。

  • 如何用 DeepSeek 进行论文降重

    本文介绍了如何利用DeepSeek AI工具降低学术论文重复率。该工具能对重复率超标的段落进行学术化改写,在保证专业术语准确性的同时降低查重率。使用方法是:1)在DeepSeek网站输入降重指令和段落;2)可指定改写风格(如某期刊格式)或具体方向(如主动改被动句);3)审查改写结果,确保语义准确、术语恰当、逻辑连贯。若发现问题可再次优化。该工具适用于毕业论文、期刊�

  • 真学霸!豆包大模型1.6正式发布:高考数学卷获144分 全国第一

    今日,字节跳动旗下火山引擎举办FORCE原动力大会,正式发布豆包大模型1.6。 新系列包括三个大模型,分别是Doubao-Seed-1.6-thinking、Doubao-Seed-1.6、Doubao-Seed-1.6-flash。 火山引擎总裁谭待表示,Doubao-Seed-1.6是首个支持256k长上下文的大模型。 以thinking模型为例,其思考能力强化,支持多模态,Doubao-Seed-1.6则支持on/off/auto三种思考模式。 在高考全国新一卷数学单科测试中,豆包大模�

  • 难哭了的高考数学题,4家国产大模型表现如何?

    2025年高考数学考试引发热议,多家AI大模型参与测试。腾讯元宝和豆包表现最优,分别获得145分和140分(满分150分),仅错1-2道题。文心一言和QWen3稍逊,得分在120分左右。测试显示,AI在选择题和基础解答题表现良好,但在涉及图像理解、向量分析等复杂题目时仍存在困难。特别是一道包含向量图的"杀手题"让所有AI失分。专家指出,国产大模型数学能力已有显著提升�

  • 6个AI大模型大战2025年高考数学新一卷:数学题推理能力均显著提升

    ​近日,随着高考的圆满结束,一场别开生面的“数学擂台赛”在各大AI大模型间悄然展开。多家知名科技公司的大模型被邀请参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的实力。此次测试题目包含8道单选题、3道多选题以及3道填空题,满分设定为73分,且测试过程严格遵循高考判分原则,确保结果的公正性与准确性。 测试成绩揭晓�

  • 如何用 DeepSeek 进行合同审核

    本文介绍如何利用DeepSeek AI工具高效审核合同法律风险。合同是商业活动的重要保障,但隐藏的法律风险可能带来巨大损失。DeepSeek能快速识别合同条款中的合法性存疑、违约责任模糊、交付条款不清等问题,并提供专业修改建议。操作流程包括:1.登录DeepSeek平台;2.上传合同文件;3.输入审核指令;4.查看详细审核结果。该工具适用于企业法务、律师及商务人员,能有效规避合同风险,提高审核效率。

  • 如何用 DeepSeek 生成爆款标题

    本文介绍如何利用DeepSeek工具快速生成15个爆款标题,提升内容吸引力。操作步骤:1.访问DeepSeek官网;2.输入指令,如"为夏日低卡甜品生成15个小红书标题",要求包含emoji、数字或关键词;3.根据不同平台特性调整风格:小红书需活泼多用emoji,知乎要理性干货,抖音则简短有力突出冲突。该工具能帮助创作者在海量信息中脱颖而出,解决标题创作难题。

  • 如何用 DeepSeek 制定项目管理计划

    本文介绍了如何利用DeepSeek AI工具快速完成电商双十二促销网页开发项目。关键点包括:1.通过DeepSeek平台输入详细需求指令,系统会生成项目管理计划和甘特图代码;2.将代码复制到Mermaid等在线渲染工具中可视化查看项目进度安排;3.根据可视化结果优化调整计划,确保任务时间节点和依赖关系合理。该方法能帮助团队在一个月内高效完成女鞋促销页面的开发上线,特别适合电商节日促销等时效性强的项目。

  • 2025年高考数学新一卷上热搜:6个AI大模型宣布挑战 谁更强?

    近日,随着高考的落幕,一场别样的“高考”也在各大AI大模型之间展开。此次测试邀请了多家知名科技公司的大模型,参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的表现。测试题目包括8道单选题、3道多选题和3道填空题,满分73分,测试过程严格遵循高考判分原则。 测试结果显示,字节跳动的豆包和腾讯的元宝(T1)以68分的总成绩�

  • 如何用deepseek生成短视频脚本

    本文介绍如何利用DeepSeek工具快速生成30秒短视频脚本。该工具可根据用户需求,自动生成包含开场悬念、核心干货、反转情节和结尾互动的优质脚本。操作流程包括:1.登录DeepSeek官网;2.输入具体指令(如"生成洗发水广告脚本,需包含开场悬念+3个核心干货+结尾互动");3.检查并优化脚本内容;4.补充画面风格、背景音乐等细节。通过多次指令调整可获得更理想的脚本