首页 > 传媒 > 关键词  > AI挑战最新资讯  > 正文

高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二

2025-06-11 17:44 · 稿源: 站长之家用户

AI挑战全套高考数学题来了!

高考数学一结束,我们连夜使用六款大模型产品,按照一般用户截图提问的方式,挑战了14道最新高考客观题,不过有网友质疑测评过程不够严谨,所以这次我们加上解答题,重新测一遍。

本次参加挑战的选手分别是:Doubao-1.5-thinking-vision-pro、DeepSeek R1、Qwen3-235b、hunyuan-t1-latest、文心 X1Turbo、o3,并且新增网友们非常期待的 Gemini2.5pro。上一次我们使用网页端测试,这次除 o3外,其他模型全部调用 API。

在考题选择上,我们仍然采用2025年数学新课标 Ⅰ 卷,包含14道客观题,总计73分;5道解答题,总计77分。其中第6题由于涉及到图片,我们就单独摘出来,后面通过上传题目截图的形式针对多模态大模型进行评测。其他文本题目全部转成 latex 格式,分别投喂给大模型,还是老规矩,不做 System Prompt 引导,不开启联网搜索,直接输出结果。

(注:第17题虽然也涉及到图片,但文字表述足够清晰,不影响答题,因此也以 latex 格式测评。)

客观题计分方法按照以往高考判分原则:

单选题每道5分,选项正确计分,错误不得分;

多选题每道6分,全对计6分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣1.5分,错选不得分;

填空题每道5分,填空正确计分,错误不得分。

至于解答题,由于现在还未出具体的评分细则,所以我们请数学专业的朋友进行评判,主要还是看大模型的最终答案以及解题步骤中是否有严重失误点。

7家大模型考试成绩如下图所示。

从客观题来看,各家大模型几乎拉不开差距,最大分差也只有3分,第6题图像题更是让这几家多模态大模型「全军覆没」。在上一次测评中,o3客观题成绩垫底,但有网友表示,这可能是由于某些原因导致后台自动切换成其他模型,而这一次我们选用的是未「降智」的 o3,选择题和填空题成绩仍是排在最后,当然,65分的成绩相比「降智」版确实有很大提升。

解答题是大模型失分的「重灾区」。除了 Gemini2.5Pro 拿到全部的分数外,其它模型或多或少均有失分。其中 DeepSeek R1和 Doubao 最可惜,只丢了一分;o3则失了2分,最终得到75分。相较而言,hunyuan-t1-latest 和文心 X1Turbo 发挥不佳,分别拿到68分和66分。

从总分上来看,Gemini2.5Pro 考了145分,位列第一,Doubao 和 DeepSeek R1以144分紧随其后,并列第二;o3和 Qwen3也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1Turbo 的总成绩排到了最后两名。

解答题:大模型失分「重灾区」

我们先来看看解答题的情况。

第15题和第17题,一道考查概率问题,一道涉及立体几何知识,7家大模型均拿到满分。

第16题是一道数列综合题,满分15分,只要证明完整、计算过程完整、结果正确就能拿到全部的分数。大模型整体表现不错,只有 Qwen3解答正确,但最终答案里面增加了多余的假设求值,扣了一分。

第18题这道椭圆方程与几何就难倒了不少大模型,仅 Doubao、DeepSeek R1和 Gemini2.5Pro 拿到满分17分,其他模型各有各的扣分点。Qwen3前面回答得都不错,过程也很完整,但偏偏最后一小问|PQ|最大值取约等于9的步骤多余,导致结果偏差,扣了一分。

o3则是第(3)问答案没化简丢了一分。

文心 X1在第2问 (2) 正确算出 P 点轨迹,但未证明极值,直接按最远点计算造成结果错误,扣6分。

hunyuan-t1-latest 前两问中回答正确,到了第3问完成 P 点轨迹之后就全错了,一下子丢了5分。

对于最后一道压轴题,Gemini2.5pro 是唯一全对的大模型。Doubao 只说明了震荡项的振幅大于0,但是也有可能震荡项的相位是反的,那样的话最大值反而有可能更小,证明过程不够严谨,扣一分。

DeepSeek R1在第(3)问中分情况讨论,得出了两类解,但对第一类解未做后续说明,扣了一分。

o3第(2)问思路正确,但因为开闭区间差别,「完全重合」说法错误,扣1分。

hunyuan-t1-latest 在第(2)问上思路可行但证明过程模糊,扣2分,到了第(3)问没有判断 phi 取值,又扣了2分。

文心 X1和 Qwen3也都是在第2问和第3问上失了分,第2问证明模糊扣2分,第3问则是未具体说明 phi 值扣2分,而且文心 X1比大小还发生错误,又扣了1分。

客观题:一道图像题难倒几家多模态大模型

在不考虑识图题(第6题)的情况下,客观题大模型总体表现都不错,Doubao、Qwen3、Gemini2.5pro、DeepSeek R1、文心 X1Turbo 和 hunyuan-t1-latest 均取得了68分的高分,只有 o3在多选题上少选了一项丢了分。

其中,o3在第9题计算过程中,忽视了「正三棱柱」这一关键条件。它在建立坐标系时,分别用 (x₀, y₀,0) 表示 A 点坐标,用 (c,0,0) 表示 C 点坐标,但没有考虑到:正三棱柱的底面是正三角形,这意味着正三角形的边长 c 与 x₀、y₀之间存在关系:c=2x₀=2y₀/√3。导致对 B 选项的判断出现错误。

接下来看看这道图片题。

遗憾的是,此次测评的多模态大模型都在这道识图题上表现不佳。虽然 hunyuan-t1-latest 不是多模态,但我们又测试了 hunyuan-t1-vision ,也在这道题上败下阵来。

相比之下,Doubao 和 o3至少正确识别了坐标位置,只是误判了视风风速方向,而 Gemini 连基本坐标都未能正确识别。

总的来说,这次测评结果显示,大模型在数学推理能力上有不小的进步,但仍有较大的提升空间。比如不少模型在解答题上丢分,这反映出大模型在复杂推理、严谨论证和多步骤计算方面还需加强。

此外,所有参测的多模态大模型在第6题的图像识别上都出现了问题,这也暴露出当前 AI 在图文结合理解方面的短板。

最后,紧张的高考已经结束,祝福所有考生都能取得理想的成绩,有着灿烂的未来!

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 全球优质AI语音大模型盘点:Whisper、Gemini Speech

    本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括:OpenAI Whisper(多语言识别与翻译)、Google Gemini(情感化语音生成)、Meta AudioCraft(音乐创作与风格转换)。国内讯飞星火(方言识别)、阿里通义(电商客服)、百度文心(车载场景)表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

  • 服务中小微企业,哪家城商行更优?DeepSeek答案是这样的

    文章指出中小企业是中国经济的"毛细血管",贡献了50%以上税收、60%以上GDP、70%以上技术创新和80%以上城镇就业。在融资难题下,城商行是关键一环。宁波银行凭借差异化战略定位、数字化赋能、产品创新和区域深耕,成为服务中小企业的标杆。其通过"四专"模式、智能风控系统和本土化服务,实现普惠小微贷款余额2199亿元,不良率连续18年低于1%。文章认为宁波

  • AI日报:xAI 震撼发布Grok4;微软开源全新Phi-4-mini版本;上海累计82款大模型通过备案

    AI日报栏目聚焦人工智能领域最新动态:1)xAI发布旗舰模型Grok4,在数学推理和代码生成表现突出,同时推出开发者专用Grok4Code;2)微软开源Phi-4-mini模型,推理效率提升10倍,适合边缘设备;3)上海82款大模型完成备案,垂直领域应用取得突破;4)Hugging Face推出开源桌面机器人Reachy Mini,支持Python编程;5)Perplexity发布AI浏览器Comet挑战Chrome;6)OpenAI将首次发布开放权重模型,打破闭源惯例;7)谷歌医疗AI模型MedGemma系列上新,单个GPU即可运行;8)OpenAI以约65亿美元收购AI硬件公司io Products,正式进军硬件市场。

  • 儿子高考不理想:父亲让他学碳弧气刨

    据媒体报道,安徽一位父亲称,他的孩子高考考了404分,这几天让他学习碳弧气刨。 据了解,碳弧气刨是使用碳棒或石墨棒作电极,与工件间产生电弧,将金属熔化,并用压缩空气将熔化金属吹除的一种表面加工沟槽的方法。 父亲表示,干这行非常苦,热天穿得像粽子一样,但收入还可以,最终会不会填报志愿要看儿子的意愿。 评论区有网友表示,高考不是唯一道路,孩�

  • 秘塔AI也终于悄悄上线了DeepResearch。

    测试完以后,我觉得这玩意,还是值得我将近通宵写一篇的。 深度研究,也就是DeepResearch。 我过去写过很多次秘塔AI了,因为我自己的搜索习惯,现在基本就是,大活上ChatGPT用DeepResearch,常识问答直接找豆包,一般的AI搜索就是秘塔AI。 当然很多ChatBot产品都有AI搜索,但是我自己这两年,还是习惯用秘塔AI和Perplexity这样形态的原生AI搜索产品了,这可能就是习惯的力量吧。

  • 果粉期待五年新品终于有消息!苹果HomePod mini 2有望今年底发布

    苹果于2020年10月推出了第一代HomePod mini,凭借其小巧的体积、出色的音质以及对Siri语音助手和HomeKit智能家居控制的支持,赢得了众多果粉的喜爱。 不过自发布以来,HomePod mini的核心硬件一直维持在五年前的水平,这让许多用户对其升级换代充满期待。 据Mark Gurman最新透露,苹果计划在今年底推出第二代HomePod mini,预计发布时间将在9月iPhone发布会之后至11月之间。 新一代产�

  • 网红阿家高考成绩462分 自曝难平衡创作与学业

    ​7 月 17 日,网红阿家通过更新视频的方式,对外公布了自己的高考成绩为 462 分。 在视频中,阿家坦言,自己在自媒体创作与学业之间很难找到平衡点。由于大量时间被自媒体相关工作占据,她在课堂上常常无法跟上老师的节奏,这在一定程度上影响了自己的学习效果。

  • 写高考作文《我的母亲》的大爷爆火 家人希望热度尽快退去

    近日一位大爷挑战写作1957年高考同题作文《我的母亲》,相关视频感动全网。 不少网民纷纷表示,文字质朴,催人泪下。 7月13日,有记者实地来到大爷老家所在地山西太原市古交市某村庄,了解大爷日常生活情况。 大爷儿子称,父亲写高考同题作文的视频在网上火了之后,陆陆续续来了很多人给父亲拍视频。 但自己的父亲只是一个普普通通的农民工,只想过平静的生活�

  • INDEMIND:停止堆功能,扫地机器人需要回归第一性原理

    文章批评当前扫地机器人行业过度追求"花哨"功能而忽视核心清洁能力的问题。厂商为差异化竞争不断叠加视频通话、机械手等创新功能,却导致产品复杂化、故障率上升,用户体验未获实质提升。指出行业应回归本质,聚焦感知、规划、决策三大核心能力升级,解决避障不佳、覆盖率低等基础痛点。介绍INDEMIND公司通过立体视觉技术构建三维语义地图,实现厘米级障碍

  • 刷屏世俱杯的RGB-Mini LED有多能打?央视拆机探秘看球黑科技

    海信在2025世俱杯期间展示了其RGB-Mini LED电视技术,通过红绿蓝三原色独立背光光源实现更纯净色彩和更高能效。相比传统电视需要二次色彩转换,该技术直接呈现原色,解决了拖影、色偏等问题,能效提升20%以上。海信通过自主研发的AI画质芯片和RGB背光芯片,攻克了三原色同步控制等技术难题。该技术已应用于85-116英寸大屏电视,成为行业认可的下一代显示方向,标志着中国显示技术从跟随到引领的跨越。