首页 > 业界 > 关键词  > 正文

七大模型全部高考分数出炉:文科能上一本、理科是二本

2024-07-18 21:27 · 稿源: 快科技
AI大模型高考成绩出炉

AI大模型高考成绩出炉

由上海人工智能实验室旗下的司南评测体系OpenCompass近日对7个AI大模型进行了高考9个科目的全科目测试,以全面评估大模型的实际应用能力。

参与测试的模型来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室商汤、法国Mistral开源模型以及OpenAI闭源模型GPT-4o。

七大模型高考分数

根据河南省高考分数线,文科成绩最高的AI模型达到一本线,而理科成绩最高的模型只能达到二本线。

七大模型高考分数

文科状元由阿里通义千问大模型获得,分数为546分。理科状元由上海人工智能实验室商汤联合研发的浦语文曲星获得,分数为468.5分。

在文科科目中,AI模型表现出了较好的知识储备和理解能力。然而,在理科科目中,AI模型的数理推理能力普遍较弱。

特别是在涉及图表题目的问题上,AI模型的得分率仅为37.64%,表明所有大模型在图片理解和运用方面还有很大的提升空间。

阅卷老师指出,尽管大模型在基础知识掌握上表现不错,但在逻辑推理和知识灵活应用方面仍存在差距。

例如,在回答主观题时,大模型常常无法完全理解题干,导致答非所问。在解答数学题时,大模型的解题过程较为机械,逻辑性较差。

举报

  • 相关推荐
  • REDMI K90 Pro参数出炉 产品经理:影像大升级

    REDMI很快就会推出年度旗舰REDMI K90 Pro,该机对应的海外版本命名为POCO F8 Ultra。 据悉,REDMI K90 Pro将会配备一颗5000万像素1/1.3英寸超大底主摄,对比上代K80 Pro的1/1.55英寸主摄,K90 Pro搭载了REDMI史上规格最强的主摄,并且支持OIS光学防抖。 除此之外,REDMI K90 Pro还将配备潜望长焦镜头,这是REDMI K系列第一款拥有潜望镜头的旗舰,相较直立长焦,潜望长焦能够放下更大底更高质量�

  • 一加Ace 6参数出炉:骁龙8 Elite+165Hz高刷屏 同档唯一

    一加Ace+6曝光:搭载1.5K 165Hz超高频屏幕、骁龙8+ Elite处理器,提供四种存储组合及三款配色。内置7800mAh电池,支持120W闪充,重约214g。独家配备全新一代游戏内核,首次实现CPU、GPU与NPU协同调度,通过三大技术优化,实现165帧全栈部署,芯片调度效率提升29.8%,功耗降低11.7%。预计10月与一加15同台发布。

  • 微信又更新了 撤回消息有大变化:可撤回本次发送的全部消息

    微信正在测试批量撤回消息功能,用户长按两分钟内发送的消息时,可选择撤回单条或本次发送的全部消息。选择后者可一次性撤回文字、图片、语音等所有类型消息,避免逐条操作。目前该功能处于灰度测试阶段,仅部分用户可用。无论撤回何种消息,对方都会收到提示。腾讯解释此举是为保障通信双方知情权,避免在商务谈判等场景下因无痕撤回导致利益纠纷。

  • 没想到,音频大模型开源最彻底的,居然是小红书

    不难发现,近几个月,开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说,开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示,国内厂商在七八月接连开源33款、31款各类型大模型。 这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域,而音频生成占比很小。

  • GEO排名查询工具推荐:霸屏AI大模型答案的核心方法,做好AI大模型排名优化

    随着AI大模型成为用户获取信息的主要入口,AIBase推出GEO排名查询工具,帮助品牌监测在豆包、DeepSeek、文心一言等主流AI平台中的曝光情况。该工具支持多平台检测、关键词追踪、可视化数据展示,可精准分析品牌是否被推荐、出现频次及具体场景,为制定AI大模型排名优化策略提供数据支撑。在GEO时代,抢占AI回答推荐位意味着获得全新流量入口。

  • 我国首个政务大模型安全国家标准发布 百度深度参与制定

    日前,我国首个针对政务大模型的安全国家标准《政务大模型应用安全规范》(下称《规范》)正式发布。百度作为核心参编单位,凭借其在人工智能安全及政务服务领域的深厚积累,深度参与了该标准的制定工作,为政务大模型的安全选用、部署运行、护栏建设和合规落地提供了专业支持。《规范》由国家工业信息安全发展研究中心牵头,联合百度等国内领先企业共同制定�

  • 易鑫发布Agentic大模型,破解汽车金融风控与效率痛点

    9月12日,易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”,成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出,易鑫以AI为核心驱动力,通过自研大模型“智鑫多维”等技术,显著提升风控水平与融资通过率,推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构,服务覆盖牧民、基层员工等多元群体,体现技术普惠价值。未来将持续加大科技创新投入,深化国内普惠金融服务,并探索技术出海,助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可,更反映出行业正加速拥抱智能化变革。

  • YY直播麦絮短剧与七猫短剧达成合作 共启短剧新生态

    YY直播旗下麦秸短剧厂牌与七猫短剧达成合作,双方将联合出品多部精品短剧。合作以七猫海量IP为核心内容,结合YY主播资源与制作能力,打造全新短剧生态。首部合作短剧《全师门共我赴长夜》已于10月6日上线,改编自人气小说《全师门就我一个废柴》。未来将聚焦都市情感、仙侠古装等热门题材,并探索AI短剧等创新玩法,通过资源整合推动内容生产与流量变现的闭环生态。

  • 游客在喇叭河拍到“杂技猴” 上一秒走钢丝 下一秒耍飞 还好没栽进河里

    近日,有游客在四川雅安市天全县的喇叭河景区拍到一只“杂技猴”走钢丝的精彩画面。视频中,猴子手脚并用在钢丝上灵活行走,还做出翻转、高抬腿等动作,尽显机敏。然而下一秒它意外滑落,所幸未掉入河中,画面颇具喜感。网友戏称“猴哥这身手,老猪自愧不如”。喇叭河景区是国家4A级旅游景区,以鹿池、红石滩等自然景观闻名,是生态旅游示范区。

  • 深度解读丨悠然无界大模型BLM-1.0:跨空间、跨任务与跨本体泛化的里程碑

    9月28日,悠然大模型BLM-1.0完成迭代升级并全面开源。该模型突破数字与物理世界壁垒,实现跨空间迁移、跨任务学习与跨本体泛化能力,以统一模型覆盖多种机器人平台。在空间理解、推理与执行评估中综合超越同规模SOTA方法,支持工业制造、智慧城市等场景应用,推动空间智能生态共建。

今日大家都在搜的词: