首页 > 业界 > 关键词  > 高考最新资讯  > 正文

2025年高考数学新一卷上热搜:6个AI大模型宣布挑战 谁更强?

2025-06-09 13:46 · 稿源:站长之家用户

近日,随着高考的落幕,一场别样的“高考”也在各大AI大模型之间展开。此次测试邀请了多家知名科技公司的大模型,参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理数学能力上的表现。测试题目包括8道单选题、3道多选题和3道填空题,满分73分,测试过程严格遵循高考判分原则。

测试结果显示,字节跳动的豆包和腾讯的元宝(T1)以68分的总成绩并列第一,仅在第6道单选题上失分。深度求索的DeepSeek和阿里的通义紧随其后,分别获得63分和62分。而百度的文心X1Turbo因在多选题和填空题上频繁失误,仅获得51分。引人注目的是,OpenAI的o3在此次测试中表现不佳,仅获得34分,正确率仅为47%,远低于其他模型。

微信截图_20250609135217.png

在单选题部分,豆包、通义、元宝和文心X1Turbo表现相当,均获得35分。DeepSeek因图片识别问题在两道单选题上失分,而o3则在多道单选题上出现错误,甚至在“送分题”上翻车。多选题部分,豆包、DeepSeek和元宝三道题全部答对,展现出稳定的发挥。通义虽然速度快,但因步骤分析简略导致在一道题上失误。文心X1Turbo在多选题上表现不佳,两道题答错,一道未响应。o3则因不适应多选题规则,一道题都没全对。

填空题部分,豆包、DeepSeek、通义和元宝斩获满分,而文心X1Turbo因最后一步画蛇添足而失分。尽管如此,与去年相比,今年大模型的数学推理能力有了显著提升。去年,大模型在高考数学题上的表现普遍不佳,甚至出现基础计算错误。而今年,除o3外,其他五款模型均突破及格线,豆包和元宝更是保持了93%的正确率。

此外,大模型在反思能力和推理步骤上也展现出进步。今年,大模型在遇到问题时不再固执己见,而是会推倒重来,进行验证。同时,除了通义外,其他大模型都能系统性地展示完整的推理链路,帮助用户深入理解问题本质。然而,测试也暴露出大模型的一些问题,如计算细节错误、公式图形处理能力不足、对题目条件敏感度不够等。

针对此次测试,专家表示,大模型在数学推理能力上的提升是显而易见的,但仍需在细节处理、图形理解和条件敏感度等方面加强。随着技术的不断进化,相信大模型在未来能够弥补这些“偏科”的毛病,为更多领域提供强大的支持。网友们也对此次测试表示关注,纷纷留言讨论各大模型的表现,并对未来大模型的发展充满期待。

如果您对AI大模型感兴趣,或者想了解更多关于AI产品和网站的信息,可以访问 [AIbase](https://top.aibase.com/),这是一个智能匹配最适合您的AI产品和网站的平台,为您提供丰富的AI资源和工具。

举报

  • 相关推荐
  • itc保伦股份广播系统圆满完成2025年高考保障任务,答好高考“保障卷”!

    ITC第八代广播系统圆满完成2023年高考保障任务。该系统整合人工智能、大数据可视化等前沿技术,提供一键巡检、智能播控等全链路保障方案。考前通过专用拾音器实现考场声场诊断,考中支持设备全链路监测,配备双CD音源、功放备份等冗余设计,主备切换时间小于0.03秒。考后提供播放数据统计分析,并建立专项巡检体系。系统已在全国考场实现国产化应用,通过完善的应急预案确保考试公平公正进行,为高考交出了满意答卷。

  • 真学霸!豆包大模型1.6正式发布:高考数学卷获144分 全国第一

    今日,字节跳动旗下火山引擎举办FORCE原动力大会,正式发布豆包大模型1.6。 新系列包括三个大模型,分别是Doubao-Seed-1.6-thinking、Doubao-Seed-1.6、Doubao-Seed-1.6-flash。 火山引擎总裁谭待表示,Doubao-Seed-1.6是首个支持256k长上下文的大模型。 以thinking模型为例,其思考能力强化,支持多模态,Doubao-Seed-1.6则支持on/off/auto三种思考模式。 在高考全国新一卷数学单科测试中,豆包大模�

  • 难哭了的高考数学题,4家国产大模型表现如何?

    2025年高考数学考试引发热议,多家AI大模型参与测试。腾讯元宝和豆包表现最优,分别获得145分和140分(满分150分),仅错1-2道题。文心一言和QWen3稍逊,得分在120分左右。测试显示,AI在选择题和基础解答题表现良好,但在涉及图像理解、向量分析等复杂题目时仍存在困难。特别是一道包含向量图的"杀手题"让所有AI失分。专家指出,国产大模型数学能力已有显著提升�

  • 高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二

    本次AI高考数学测试评估了7个大模型的表现,包括Doubao、DeepSeek、Qwen3等。测试包含14道客观题和5道解答题,总分150分。结果显示:1)客观题各模型差距不大,最大分差仅3分;2)解答题成为主要失分区,仅Gemini2.5Pro获得满分;3)图像识别题(第6题)难倒所有多模态模型,暴露AI图文理解短板。最终Gemini2.5Pro以145分居首,Doubao和DeepSeek R1以144分并列第二。测试表明大模型在数学推理能力上有进步,但在复杂论证和多步骤计算方面仍需提升。

  • AI大模型排名前十:谁主2025智能时代沉浮?

    本文介绍了当前全球最受瞩目的十大AI大模型及其特点。OpenAI的GPT-4系列以自然语言理解和多模态处理能力见长;Anthropic的Claude3系列擅长长文本分析和专业写作;Google的Gemini1.5具备强大的多模态处理能力;Meta的Llama3是性能强劲的开源模型;xAI的Grok系列擅长实时信息处理;Mistral AI以高效混合专家架构著称;Cohere专注企业级应用;Inflection Pi主打情感陪伴;中国的DeepSeek和通义千问在中文本地化方面表现突出。文章建议根据具体需求选择模型,并推荐使用专业平台进行模型对比。未来AI将向更长上下文、更自然的多模态交互等方向发展。

  • 对话得到CEO:2025年“老板们”最愿意听什么样的课?

    初次到访得到公司的人,都会对公司显眼位置的几处数据大屏印象深刻。 数据大屏上直白地展示出“得到App”的用户数据、增长数据等,而在这些数据中,最显眼最详细的是用户的NPS(净推荐值)曲线,变化直观可见。 “用户净推荐值是大家可以通过努力去提升的一个数据,所以我们才把日常用户的评价情况呈现出来,放在公司里显眼的位置上。这样一来,当员工看到后,�

  • 2025最新全球AI大模型排名,国内外模型动态洗牌(实时更新平台推荐)

    2025年全球AI大模型竞争进入白热化阶段,OpenAI、Google等国际巨头与中国企业激烈交锋。技术迭代远超预期,仅半年内排名就经历多次洗牌。当前全球AI大模型综合排名Top10显示:1)GPT-4.5综合80.4分领跑;2)Claude3.7编程领域领先;3)Gemini2.0多模态标杆;4)国产DeepSeek R1推理速度提升3倍;5)阿里Qwen2.5数学编程单项第一。中国模型通过开源策略、垂直优化和成本革命实现弯道超车,如DeepSeek R1仅耗资600万美元达到GPT-4水平,字节豆包采用稀疏MoE架构成本大幅降低。中文场景深度优化表现突出,如文心一言4.0方言交互准确率92%。开源生态爆发,通义千问全尺寸开源(7B~110B参数)在Hugging Face排名第一。权威评估需结合标准化测试、人类盲测和场景适配性。

  • AI新闻网站哪里看?2025年最全AI资讯获取指南

    文章介绍了AI信息过载时代,AIbase.cn作为专业AI资讯平台的优势:1)专业性强,提供技术解读和行业分析;2)时效性高,快速响应重大新闻;3)覆盖全面,包含技术突破、商业应用、投融资等全领域。平台通过精选日报、热点追踪等功能,帮助从业者高效获取有价值信息,适合技术人员、产品经理、投资人等不同群体,是了解AI行业动态的首选渠道。

  • 最新!2025年欧盟能效标签新规要点_欧税通

    欧盟将于2025年6月20日起实施新能效标签法规,要求所有销往欧盟市场的智能手机和平板电脑必须标注能效等级、电池寿命、防水防尘等关键信息。卖家需在产品详情页和实物包装上清晰展示能效标签,最小尺寸不得低于标准尺寸的70%。同时产品还需完成CE认证和欧代注册,未合规产品将面临下架、罚款甚至销毁风险。速卖通卖家需立即排查产品合规性,确保能效标签包含:1)注册能效标签和能效表格;2)获取EPREL编号;3)发货前将标签印制在产品或包装上。

  • 2025年首届“智见未来”数字文旅大赛在西安圆满落幕

    2025年6月19日,首届"智见杯"数字文旅创新大赛颁奖仪式在第六届西部数字博览会开幕式上举行。大赛由西安市委宣传部、市数据局、市文旅局联合主办,以"智启文旅,共见未来"为主题,设置开放赛道和"揭榜挂帅"两大赛道,吸引全国500余支团队参赛。经过6个月角逐,20支团队进入决赛,最终云创科技的《西安文旅一站式服务平台》获最高荣誉"智见杯"大奖。大赛聚焦数字技术赋能文旅产业,涌现出AI内容创作、AR显示技术等创新成果,推动文旅行业数字化转型。西安市委常委杨丽萍表示,大赛将升级为年度赛事,2026年第二届将新增工业化创新、AI终端创新等特色赛道,进一步扩大影响力。活动为西安文旅高质量发展注入新动能,打造了数字科技与文旅融合的"西安经验"。