首页 > 传媒 > 关键词  > 高考最新资讯  > 正文

难哭了的高考数学题,4家国产大模型表现如何?

2025-06-11 10:45 · 稿源: 站长之家用户

2025 年高考已经来到最后一天,首先天语文数学两门科目刚结束,数学相关的话题就上了热搜。众多考生纷纷表示,“高中数学难哭”、“考场出来都沉默了”。

(来源网络)

目前已经看到许多家大模型晒出他们语文作文的优秀案例,但数学题还鲜少提及。一方面相比作文,数学题的确更具有挑战,包括逻辑推理的严谨性、数学符号的准确处理、抽象概念的理解深度等等。另一方面,难道是因为今年题目实在太难,连AI都难倒了?不过多猜测,我们也直接找到了2025 年数学新课标 Ⅰ 卷,并挑选了 4 为大模型“选手”来做题PK。

他们分别是:腾讯元宝(混元T1)、豆包、QWen3、以及文心 X1 Turbo。

4 位“选手”都做了数学 1 卷全套卷子,包括选填题以及解答题。并且每家大模型都选择了深度思考,尽量保证公平性。由于标准答案并没有释放,我们也邀请了多位高中在职教师来交叉验证。

首先,在选择题的部分,我们按照高考实际打分要求,单选题选项正确计分,错误不得分。多选题 3 道,每道 6 分,全对计 6 分,漏选按正确答案数量计分,错选不得分。填空题填空正确计分,错误不得分。

可以看到,元宝和豆包两家表现较为优秀,都只错了一道选择题,拿到了 68 分(满分 73 分)。而这道选择题也难到了一众选手,可以说是全军覆没,具体什么题我们稍后再看。另外QWen3 和文心 X1 Turbo就稍逊一筹,分别拿到了 55 分和 60 分。它们在第 8 道选择题都犯了难,另外QWen3 在多选题中也因为选项没有选全,而失去部分分数。

我们先来看看让所有大模型都失分的“杀手”题,作为仅有一道带图像的题目,里面还涉及两个向量图,各家大模型都理解的不太好。这也是元宝和豆包仅有失误的一道题。

而让QWen3 和文心 X1 Turbo都失分的第 8 题,仔细看发现,QWen3 得出了正确的结论但可能误解了题目意思,导致最后给出错误的选项。而文心整体回答上都有些跑偏。

元宝和豆包无论在解题,还是理解题意上都做得比较好,也顺利给出了正确的答案。

元宝答题:

图片.png

豆包答题:

通义答题:

文心答题:

(客观题评分参考)

接下来再看看真正“难哭”一众考生的解答题,比如第 16 题,包含了等差数列、函数等多个知识点,各家大模型以及网传的答案有很多版本。

可以看到,这题的难点主要聚焦在第二小问, 4 位“选手”在首先小问都答出了正确的答案。在第二小问,豆包、元宝、文心 X1 Turbo给出了正确答案,而QWen3 出现偏差较远的答案。

元宝答题:

豆包答题:

通义答题:

文心答题:

同样比较有争议的还有第 18 题,同样的,前面两个小问 4 位“选手”都给出了准确的答案,其中第二小问,虽每家大模型给出的答案形式不同,但经验证是等价的,故都判为正确。

但第三小问只有元宝给出了准确的答案,豆包、QWen3 的答案都不准确,文心 X1 Turbo甚至未能给出一个答案。

元宝答题:

豆包答题:

通义答题:

文心答题:

最后,我们也邀请到了一位高中数学老师来为 4 位“选手”的解答题打分。打分标准为答案正确即给满分,答案错误,综合考虑过程给分,由于标准答案还未公布,打分仅供参考。

总体来看,元宝和豆包的表现较为突出,元宝仅错一道选择题,拿到了 145 分。豆包则错了一道选择题、以及第 18 题解答题的一个小问,拿到了 140 分的高分。但即使是稍微落后的QWen3 和文心 X1 Turbo,也能达到80%-85%的正确率,可以看到国产大模型在数学方面的能力已经有了非常大的提升。

相信未来,随着科技飞速的发展,大模型疯狂“内卷”,整体能力也会再次进化。当面对明年的高考题,大模型是否会能毫无疑问的拿到全科满分了呢?

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 六大国产大模型高考作文实测:讯飞星火夺冠

    2025年高考全国一卷作文题引发热议,题目以老舍、艾青、穆旦三位作家的作品为素材,要求考生探讨个体在困境中的表达方式。

  • 6个AI大模型大战2025年高考数学新一卷:数学题推理能力均显著提升

    ​近日,随着高考的圆满结束,一场别开生面的“数学擂台赛”在各大AI大模型间悄然展开。多家知名科技公司的大模型被邀请参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的实力。此次测试题目包含8道单选题、3道多选题以及3道填空题,满分设定为73分,且测试过程严格遵循高考判分原则,确保结果的公正性与准确性。 测试成绩揭晓�

  • 高考数学霸榜热搜!男生第一个走出考场:数学题目太难了 不会

    今天下午,有关高考数学的微博话题霸占了热搜榜,引发热议。 在海南某考点,一名男生第一个走出考场,还简单接受了媒体采访,称数学太难了,不会”。对于高考数学题目,有的学生答得非常不错,有的学生则表示太难。 据了解,2025年高考数学命题遵循高校人才选拔要求和高中数学课程标准,依据高考评价体系,持续推进考试内容改革。更新设计理念,深化基础性考查

  • 真学霸!豆包大模型1.6正式发布:高考数学卷获144分 全国第一

    今日,字节跳动旗下火山引擎举办FORCE原动力大会,正式发布豆包大模型1.6。 新系列包括三个大模型,分别是Doubao-Seed-1.6-thinking、Doubao-Seed-1.6、Doubao-Seed-1.6-flash。 火山引擎总裁谭待表示,Doubao-Seed-1.6是首个支持256k长上下文的大模型。 以thinking模型为例,其思考能力强化,支持多模态,Doubao-Seed-1.6则支持on/off/auto三种思考模式。 在高考全国新一卷数学单科测试中,豆包大模�

  • 高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二

    本次AI高考数学测试评估了7个大模型的表现,包括Doubao、DeepSeek、Qwen3等。测试包含14道客观题和5道解答题,总分150分。结果显示:1)客观题各模型差距不大,最大分差仅3分;2)解答题成为主要失分区,仅Gemini2.5Pro获得满分;3)图像识别题(第6题)难倒所有多模态模型,暴露AI图文理解短板。最终Gemini2.5Pro以145分居首,Doubao和DeepSeek R1以144分并列第二。测试表明大模型在数学推理能力上有进步,但在复杂论证和多步骤计算方面仍需提升。

  • 2025年高考数学新一卷上热搜:6个AI大模型宣布挑战 谁更强?

    近日,随着高考的落幕,一场别样的“高考”也在各大AI大模型之间展开。此次测试邀请了多家知名科技公司的大模型,参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的表现。测试题目包括8道单选题、3道多选题和3道填空题,满分73分,测试过程严格遵循高考判分原则。 测试结果显示,字节跳动的豆包和腾讯的元宝(T1)以68分的总成绩�

  • 大模型都能冲清北了?首个AI高考总分评测结果出炉

    7家国产大模型参加2025年辽宁高考模拟测试,结果显示:腾讯元宝在文科考试中以667.5分夺冠,接近清北录取线;豆包、讯飞星火分别以655分和652分紧随其后,均达985高校水平。理科方面,豆包以635分领先,元宝和Kimi分别获得632.5分和629分。测试发现大模型在文科表现优于理科,尤其在语文作文和数学解题能力突出,元宝数学获得149分高分。但在理科综合科目存在短板,物理化学的解题过程和知识点推导不够完整,图像符号理解不足。相比去年,今年大模型整体能力显著提升,已从"文科一本、理科二本"水平进步到冲击顶尖高校的水平,展现了国产AI的快速发展。

  • 7款AI大模型写高考作文,语文名师点评,豆包、GPT等斩获前三

    刚刚, 2025 年高考作文题目出炉,再次成为亿万网友关注的话题。越来越“聪明”的人工智能大模型写高考作文真题,会带给我们怎样的惊喜?阅卷老师又会给出怎样的分数呢?今年湖北高考语文采用全国一卷,作文题为根据给定的材料进行写作。根据阅卷老师的打分,豆包、通义千问、GPT-4o的作品斩获前三名。全国一卷阅读下面的材料,根据要求写作。( 60 分)他想要给孩子们唱

  • 开了火锅店!58岁高考钉子户梁实将参加第29次高考:复习不乐观 考二本有点难

    马上2025年的高考就要来临了,而58岁的梁实将迎来自己的29次高考。 在接受采访时,梁实直言目前他正在复习备考,不过复习情况不乐观。 按照梁实的说法,自己和朋友合伙在他一直复习的茶馆开了一家火锅店,上半年他一直在忙碌火锅店的经营事宜,后续复习中也不能离开手机要关注店铺情况,不能做到专心复习。

  • 高考戴智能手表用不用都作弊上热搜 教育部发布高考注意事项

    ​今日,“高考戴智能手表用不用都作弊”这一词条登上微博热搜,引发了广泛讨论。为助力广大考生更好地了解考试注意事项,教育部政务新媒体“微言教育”公众号针对考生常见问题,整理出“十问十答”及相关建议,供考生和家长参考。 教育部特别提醒,考生在进入考点前,切勿将手机等违规物品带入考点。进入考场时,会再次进行考生身份验证和违规物品检查。除省