首页 > 传媒 > 关键词  > 高考最新资讯  > 正文

大模型都能冲清北了?首个AI高考总分评测结果出炉

2025-06-13 15:01 · 稿源: 站长之家用户

大模型参加高考,能上什么学校?

高考结束不到 5 天,各家大模型纷纷在语文作文、数学题上PK,有的文采飞扬,作文能接近满分;有的数学能力领先,直接满分交卷。如果让大模型直接做完整套试卷,总分又能拿多少?

以辽宁 2025 年高考真题为例(题目源自网络),记者邀请了 7 位国产大模型“选手”参赛。他们分别是:DeepSeek、豆包、腾讯元宝(混元T1)、讯飞星火、Kimi、千问和文心。

辽宁卷的语数英采用全国二卷,副科自主命题,据了解,黑、吉、辽、蒙共用九科试卷。整个评测方式采用3(语数外)+3(理综/文综)的形式对大模型进行了全科目测试。评测过程中,优先将试卷题目截图上传作答,少量图片解析失败的用OCR文本代替。最后,邀请了多位在职高中老师,评判各个科目的主观题分数。

从总成绩来看,元宝在文科考试中拿下首先,获得667. 5 分的高分,以 2024 年辽宁省高考录取分数线为参考,已经可以冲刺“清北”。紧随其后的豆包、讯飞星火拿下来 655 分和 652 分的高分,也可以轻松就读 985 先进院校。

而在理科考试中,和往年一样,理科成绩会整体会弱于文科。拿到首先的豆包获得了 635 分,紧随其后元宝和kimi拿到了632. 5 分和 629 分,都可以冲刺985。但对比文科,无缘先进大学。

具体来看,语数英三门主科中,豆包拿下了语文首先,紧随其后元宝、kimi拿下了并列第二。各家在语文主观题上都表现比较平均,而豆包、元宝、kimi在作文上都拿到了50+的高分,使整体成绩更佳。数学测试则是由元宝拿下了首先,获得了 149 分的高分。只在最后一道解答题中,因答题过程稍不完整,遗憾丢失 1 分。在英语测试中,各家大模型在主观题都表现的比较平均,都能拿到满分,差异主要出现在英语作文。

大模型在文综方面也都表现不错。对于文综的客观题,表现好一些的大模型,如元宝、豆包能拿到接近满分,这也体现了大模型在知识理解和覆盖上较为出色。但在主观题中,文综对于解答题的“得分点”有比较高的要求,而大模型似乎对此不那么熟悉。比如地理解答题对知识点和推导过程要求严格,大模型可以给出最终答案,但会缺少1- 2 个知识点的推导。而在政治题上,则更加要求知识点的完整性,在阅读题的部分,大模型经常会遗漏部分知识点导致失分。阅卷老师也特别提到,元宝正是对这些“得分点”把握的比较准确,拿到了更好的成绩。

而在理综方面,大模型在数学逻辑推理上还存在一定短板,另外理科试题存在比较多图像、符号,大模型对这部分内容理解不足,也会导致整体偏弱。阅卷老师提到,比如物理答卷中,针对解答题,大模型大多能匹配到正确的公式,但在计算过程中也会出现不同程度的问题,导致答案偏离。而在化学考试的填空题中,往往一道大题会包含5- 6 个小题,各家大模型都没法在这类题型中拿到满分。生物题也同样出现这样的状况。

但总体来看,对比去年大模型比较严重的“偏科”情况,成绩只能达到“文科能上一本,理科只能上二本”的水平。今年大模型整体的能力有很大的提升,不仅在文科上能冲刺清北,理科上 985 也不是问题。这也源于过去一年人工智能领域、以及国产大模型的飞速发展。

相信在未来,发展速度会越来越快,也期待看到模型不仅不再“偏科”、在分数上有跨跃性的进步,还能实际运用到各个学科发展上,攻克更多挑战。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 写高考作文《我的母亲》的大爷爆火 家人希望热度尽快退去

    近日一位大爷挑战写作1957年高考同题作文《我的母亲》,相关视频感动全网。 不少网民纷纷表示,文字质朴,催人泪下。 7月13日,有记者实地来到大爷老家所在地山西太原市古交市某村庄,了解大爷日常生活情况。 大爷儿子称,父亲写高考同题作文的视频在网上火了之后,陆陆续续来了很多人给父亲拍视频。 但自己的父亲只是一个普普通通的农民工,只想过平静的生活�

  • 尖子生沉迷手机高考失常被扫地出门:我很羡慕别人父母

    湖南长沙近日发生一起家庭教育争议事件:湖南长郡中学尖子生小凯因沉迷手机导致高考发挥失常,物理类仅考取 575 分(超一本线 60 分),被父母断绝生活来源并赶出家门。这起事件将"唯分数论"教育观与青少年心理健康的矛盾推上风口浪尖。 据知情人士透露,小凯初中时曾获省级物理竞赛奖项,以年级前 50 名的成绩考入长郡中学,被视为冲刺清华北大的重点培养�

  • 尖子生沉迷手机高考失常被扫地出门:称羡慕别人的父母

    近日,湖南长沙长郡中学一名尖子生小凯(化名)的遭遇引发社会关注。这名原本有望冲刺985高校的优秀学生,因沉迷手机导致高考物理类成绩仅575分,虽超过湖南一本线约60分,但在高手如云的长郡中学却处于垫底水平。这一结果,让小凯的父母痛心疾首,进而采取了一系列极端措施。 据了解,小凯在模拟考中曾取得超过600分的佳绩,父母对他寄予厚望。然而,随着对手机�

  • 国内有哪些ai大模型?一文看懂中国核心AI大模型全景

    近两年中国AI大模型发展迅猛,已形成"通用+行业"双轨并进的生态格局。百度文心一言、阿里通义千问等通用大模型在中文理解、多模态生成等方面表现突出;深度求索DeepSeek以1/10参数实现GPT-4级推理能力;月之暗面Kimi以20万汉字上下文窗口领跑长文本处理;智谱AI的GLM-4成为首个支持视频对话的国产千亿模型。医疗、金融等垂直领域涌现出百川智能等专业模型,覆盖超1000家医院。开源生态加速国产芯片适配,15家厂商完成深度优化。行业应用方面,工程文档效率提升60%,24小时拟人化客服等案例凸显价值。未来趋势呈现模型蒸馏、端侧部署和开源生态三大方向,中国AI正从实验室走向产业变革前沿。

  • 湖北高二学生参加高考 数学满分:总分608分引发关注

    6月25日,湖北省高考成绩揭晓,湖北省武昌实验中学高二学生亢春泰以数学150分满分、总分608分的优异成绩引起关注。面对这一成绩,身高1米92的亢春泰自信且淡定地表示:“有惊喜,但也在意料之中。考完了我就知道,数学应该没什么错。” 据亢春泰介绍,高考结束后,他自我感觉数学发挥稳定,最终成绩也印证了他的判断。亢春泰的班主任老师王巧艳透露,亢春泰的数学�

  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

  • 平台否认高考288分女生借热度变现 称账号无开播记录

    近日,“女孩高考288分全家欢呼”事件引发网友广泛关注,随后家人被指借此引流带货,相关话题迅速登上热搜,引发舆论热议。对此,抖音黑板报于日前发布声明,就平台掌握的信息及核查举措进行公开说明。 声明中,抖音首先确认了事件的真实性。平台与女孩母亲账号取得联系后,对方通过出示高考成绩查询录屏及准考证,证实了女孩高考288分这一事件属实。

  • “晓妙”产业大模型——AI驱动的产业变革

    7月4日,安徽数智建材研究院在长城工程科技会议上发布"晓秒"产业大模型。该模型由傲林科技投资支持,采用"1+1+N"架构,融合数据、机理和业务模型,实现生产运营全流程实时闭环优化。中国建材集团董事长周育先表示,该模型已在水泥板块试点应用,吨水泥成本降低1%以上,能耗电耗下降2%以上。会议指出,AI落地制造业需突破三大关键:建立数字化体系、夯实数据基础、实现工艺与数据融合。未来将拓展至新能源、钢铁等十余个行业,推动产业智能化升级。

  • 高考288分竟是带货剧本:光速反转 从全网赞到全网黑

    近日,一对母女因“高考288分全家欢庆”的短视频引发网络热议,随后被曝出疑似精心策划的流量剧本,迅速从“励志典范”沦为争议焦点。事件起因于高考放榜后,母亲在社交平台发布庆祝视频,配文“女儿考了288分,健康快乐就是满分”,画面中全家举杯欢笑的场景收获数十万点赞。然而,随着网友深挖,这场“温情大戏”背后的商业链条逐渐浮出水面。 据公开资料显示

  • 哥哥上北大弟弟考702准备报清华 网友:双双实现清北梦

    ​6月25日,河南长垣一名男生在高考中取得了物理类702分的优异成绩,这一喜讯迅速传开。当母亲看到儿子的成绩时,激动得哽咽不已,紧紧拥抱住儿子,两人喜极而泣。据了解,这位男生所在的学校老师在查出他的成绩后,也在办公室激动尖叫,为这位学生的出色表现感到由衷高兴。