2025年高考数学新一卷上热搜：6个AI大模型宣布挑战谁更强？

2025-06-09 13:46 · 稿源：站长之家用户

近日，随着高考的落幕，一场别样的“高考”也在各大AI大模型之间展开。此次测试邀请了多家知名科技公司的大模型，参与2025年数学新课标Ⅰ卷中的14道客观题测试，以此检验它们在逻辑推理和数学能力上的表现。测试题目包括8道单选题、3道多选题和3道填空题，满分73分，测试过程严格遵循高考判分原则。

测试结果显示，字节跳动的豆包和腾讯的元宝（T1）以68分的总成绩并列第一，仅在第6道单选题上失分。深度求索的DeepSeek和阿里的通义紧随其后，分别获得63分和62分。而百度的文心X1Turbo因在多选题和填空题上频繁失误，仅获得51分。引人注目的是，OpenAI的o3在此次测试中表现不佳，仅获得34分，正确率仅为47%，远低于其他模型。

微信截图_20250609135217.png

在单选题部分，豆包、通义、元宝和文心X1Turbo表现相当，均获得35分。DeepSeek因图片识别问题在两道单选题上失分，而o3则在多道单选题上出现错误，甚至在“送分题”上翻车。多选题部分，豆包、DeepSeek和元宝三道题全部答对，展现出稳定的发挥。通义虽然速度快，但因步骤分析简略导致在一道题上失误。文心X1Turbo在多选题上表现不佳，两道题答错，一道未响应。o3则因不适应多选题规则，一道题都没全对。

填空题部分，豆包、DeepSeek、通义和元宝斩获满分，而文心X1Turbo因最后一步画蛇添足而失分。尽管如此，与去年相比，今年大模型的数学推理能力有了显著提升。去年，大模型在高考数学题上的表现普遍不佳，甚至出现基础计算错误。而今年，除o3外，其他五款模型均突破及格线，豆包和元宝更是保持了93%的正确率。

此外，大模型在反思能力和推理步骤上也展现出进步。今年，大模型在遇到问题时不再固执己见，而是会推倒重来，进行验证。同时，除了通义外，其他大模型都能系统性地展示完整的推理链路，帮助用户深入理解问题本质。然而，测试也暴露出大模型的一些问题，如计算细节错误、公式图形处理能力不足、对题目条件敏感度不够等。

针对此次测试，专家表示，大模型在数学推理能力上的提升是显而易见的，但仍需在细节处理、图形理解和条件敏感度等方面加强。随着技术的不断进化，相信大模型在未来能够弥补这些“偏科”的毛病，为更多领域提供强大的支持。网友们也对此次测试表示关注，纷纷留言讨论各大模型的表现，并对未来大模型的发展充满期待。

如果您对AI大模型感兴趣，或者想了解更多关于AI产品和网站的信息，可以访问 [AIbase]（https://top.aibase.com/），这是一个智能匹配最适合您的AI产品和网站的平台，为您提供丰富的AI资源和工具。

（举报）

相关推荐

关键词：

GEO排名查询工具推荐:霸屏AI大模型答案的核心方法，做好AI大模型排名优化

随着AI大模型成为用户获取信息的主要入口，AIBase推出GEO排名查询工具，帮助品牌监测在豆包、DeepSeek、文心一言等主流AI平台中的曝光情况。该工具支持多平台检测、关键词追踪、可视化数据展示，可精准分析品牌是否被推荐、出现频次及具体场景，为制定AI大模型排名优化策略提供数据支撑。在GEO时代，抢占AI回答推荐位意味着获得全新流量入口。

AI大模型 GEO排名查询生成引擎优化
荐AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠榜Hugging Face；Veo3视觉能力升级

蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0，在多项基准测试中表现优异；阿里通义7款模型登顶Hugging Face榜单，Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限，可自动完成视觉任务；特斯拉推进人形机器人量产，马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密，苹果内部测试聊天机器人Veritas优化Siri，YouTube推出AI音乐主播增强互动，LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

AI 开源模型高性能思考模型
孩子的数学逻辑比运算结果重要专家：应鼓励孩子表达思考路径

近日，教育领域专家针对儿童数学能力培养问题发出呼吁，强调在基础教育阶段应更加关注孩子的数学逻辑思维发展，而非单纯追求运算结果的正确性。这一观点引发了社会对数学教育本质的深入讨论。传统数学教学中，运算结果的准确性常被视为衡量学习成效的核心标准。然而，多位教育研究者指出，数学思维的培养是一个系统过程，其中逻辑推理能力才是支撑长期数学学
易鑫亮相2025数字价值年会，自研AI大模型引领汽车金融智能化变革

易鑫入选钛媒体“2025创新场景年度AI应用TOP榜”，是汽车金融科技领域唯一登榜企业。公司坚持自研大模型路线，依托11年行业数据积累，打造自主可控的AI风控与业务决策系统。其“智鑫多维”大模型成为行业首家获生成式AI备案企业，实现全场景规模化应用。业务覆盖4.2万家经销商及上百家金融机构，科技赋能服务内蒙古牧民、新加坡企业员工等群体。未来将持续深化自研大模型+全场景应用，强化普惠金融服务与国际技术输出。

汽车金融科技 AI风控自研大模型
合肥60后高考大叔已到校报到：挑战自己不丢人

近日，备受关注的“合肥60后高考大叔”王文生正式踏入大学校园，开启了他的求学新旅程。9月15日，王文生来到合肥一所公办职业学院完成报到手续，成为该校网络营销与直播电商专业的一名新生。据王文生介绍，他去年10月才决定参加高考，期间付出了诸多努力。备考的日子里，他日夜与公式单词为伴，复习资料上密密麻麻的笔记记录着他的坚持。今年高考期间，他因早�

合肥60后高考大叔网络营销与直播电商专业高考备考故事
荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking；阿里开源Wan-Animate模型革新AI视频生成；字节跳动发布豆包翻译模型，支持28种语言互译；华为与浙大联合推出安全大模型DeepSeek-R1-Safe；阿里云即将发布跨模态模型Qwen3-Omni；xAI推出计算成本降低98%的Grok4Fast模型；YouTube发布多项AI创作辅助功能；IBM推出轻量级文档处理模型Granite-Docling-258M；中科院发布类脑大模型SpikingBrain实现百倍速度突破；OpenAI将推出仅限Pro用户的计算密集型新功能。

AI日报美团大模型 LongCat-Flash-Thinking
想象力智能中高考到底有没有效果？

2025年高考报名人数突破1335万，中考人数飙升至1540万，升学竞争激烈。在分数决定升学的压力下，“智能教育技巧提分”成为家长和考生眼中的“救命稻草”，催生了鱼龙混杂的中高考提分市场。想象力智能中高考凭借系统化提分逻辑、适配性教学设计与实战化效果验证，在众多品牌中脱颖而出，堪称提分领域的“真正王者”。其品牌实力可溯可查，师资信息全透明，课程质量更显可靠，提分数据真实可查，产品效果显著。建议家长和学生在选择提分品牌时关注近三年提分数据、师资团队真实背景及课程体系个性化，避免“一刀切”。

高考报名人数中考人数智能教育技巧
云天励飞“算力积木”联手OISA，突破万亿级MoE大模型推理集群的Scale up瓶颈

云天励飞近日加入OISA生态，携手产业伙伴共建国产AI芯片互联体系，为中国算力生态注入新动力。OISA是中国移动提出的开放互联标准体系，旨在打造全向、对等、智能的互联新范式，解决智算集群内存互访难题，为大规模并行计算提供技术基石。云天励飞凭借在AI芯片与算力架构的长期积累，将依托“算力积木”架构的模块化优势，在大规模推理集群中实现高效互联，助力突破万级MoE大模型推理瓶颈，推动国产算力生态发展。

云天励飞 OISA生态 AI芯片互联
AI排名监控工具实战指南:如何用GEO排名查询提升品牌AI搜索可见度

随着ChatGPT等AI搜索引擎普及，传统SEO正经历深刻变革。文章指出，超60%用户开始使用AI搜索，而AI直接给出答案而非展示链接，导致品牌面临可见度危机。为此提出GEO（生成引擎优化）概念，强调需通过专业工具监测AI排名，并推荐AIBase平台的多平台覆盖、真实场景模拟和竞品分析功能。最后给出四步优化流程：建立监测基准、分析排名差异、针对性内容优化、持续迭代，帮助品牌在AI时代建立竞争优势。

GEO AI搜索引擎 SEO变革
荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

本期AI日报聚焦多项技术突破：DeepSeek发布V3.2-exp模型，通过稀疏注意力机制降低API成本50%；Anthropic推出Claude Sonnet 4.5，在编码任务表现卓越；ChatGPT新增即时结账功能，实现对话界面直接购物；OpenAI将推出AI版TikTok，所有内容由Sora2模型生成；百度地图升级小度想想2.0，提供智能出行服务；蚂蚁集团开源万亿参数模型Ring-1T-preview；DeepMind提出“帧链”概念，推动视频模型实现全面�

AI DeepSeek 稀疏注意力

今日大家都在搜的词：

热文

3 天
7天

2025年高考数学新一卷上热搜：6个AI大模型宣布挑战谁更强？

GEO排名查询工具推荐:霸屏AI大模型答案的核心方法，做好AI大模型排名优化

荐AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠榜Hugging Face；Veo3视觉能力升级

孩子的数学逻辑比运算结果重要专家：应鼓励孩子表达思考路径

易鑫亮相2025数字价值年会，自研AI大模型引领汽车金融智能化变革

合肥60后高考大叔已到校报到：挑战自己不丢人

荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

想象力智能中高考到底有没有效果？

云天励飞“算力积木”联手OISA，突破万亿级MoE大模型推理集群的Scale up瓶颈

AI排名监控工具实战指南:如何用GEO排名查询提升品牌AI搜索可见度

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

今日大家都在搜的词：

热文

苹果iOS18.7.1正式版更新发布重要安全修复

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

罗永浩替小米说公道话：海报小字是行业陋习

腾讯QQ闪传功能上线支持单文件最大10GB传输

苹果iOS 26.0.1正式版发布：修复iPhone 17系列Wi-Fi、拍照等Bu

OPPO Find X9系列定档：10月16日发布

鸿蒙智行享界S9T上市13天大定破 15000 台

王腾小红书账号注销快手账号已被封禁抖音账号已私密视频号已

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

苹果iOS18.7.1正式版更新发布重要安全修复

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

小米17系列开售5分钟破25年国产手机首销纪录

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

iPhone调休闹钟上热搜苹果客服回应：需手动设置

小米17/Pro/Pro Max今日首销：4499元起

站长商机

2025年高考数学新一卷上热搜：6个AI大模型宣布挑战 谁更强？

今日大家都在搜的词：

热文

站长商机

2025年高考数学新一卷上热搜：6个AI大模型宣布挑战谁更强？