首页 > 业界 > 关键词  > 人工智能最新资讯  > 正文

国产AI大模型高考成绩单出炉:讯飞星火获得综合第 一

2024-06-11 15:12 · 稿源: 快科技

随着今年高考的结束,一场前所未有的“智能竞赛”也在幕后悄然展开。今年的高考战场上,一支非传统但引人注目的队伍——国产人工智能大模型,吸引了广泛关注。

近日,搜狐科技、量子位等十余家权威媒体对近 10 款国产人工智能大模型进行了高考作文、数学、物理三个科目的全面评测,并公布了令人瞩目的成绩

国产AI大模型高考成绩单出炉:讯飞星火获得综合第一

首先进行的是高考作文的评测。在搜狐科技的评测中,三位资深语文教师作为权威专家为各大模型的作文打分。腾讯元宝和百度文心一言以超过 50 分的成绩位居前列,智谱清言、字节豆包与讯飞星火则并列第三。Kimi、阿里通义、百川、海螺排名相对靠后。

而在潇湘晨报的“AI写作”评测中,讯飞星火不仅平均分位居首位,且获得了全场最高分 56 分。潇湘晨报邀请湖南知名作家、编辑作为阅卷老师,对国内五大AI大模型产品——百度文心一言、讯飞星火、阿里通义千问、字节豆包、腾讯元宝的高考作文进行评分,经过四位阅卷老师的综合打分,讯飞星火以 49 分的平均分高居首位。

国产AI大模型高考成绩单出炉:讯飞星火获得综合第一

给讯飞星火打出“全场最高分” 56 分的阅卷老师表示:“本文观点清晰,论述集中且层层推进,很多句子都简洁有力,颇有思想性。如果是某个学生写的,无疑是难得的佳作。”

接下来是数学科目的较量。在搜狐科技的数学评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。

国产AI大模型高考成绩单出炉:讯飞星火获得综合第一

在量子位的高考数学评测中,虽然没有给出详细成绩单,但展示了各家大模型详细的解题思路,交由网友打分,通过网友的投票打分可以看出,讯飞星火的“识图+解数学题”能力收到了最高认可,位居其后的分别是Kimi、通义千问、文心一言、豆包等。

国产AI大模型高考成绩单出炉:讯飞星火获得综合第一

最后是高考物理的测试。在量子位的评测中,阿里通义千问与讯飞星火以71.4%的准确率高居第一梯队,而Kimi、海螺和腾讯元宝则以42.9%的准确率位于第二梯队。百川百小应和万知答对一题位于第三梯队。

文心一言、豆包、天工、智谱清言、商量因为出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,即正确率为28.6%;豆包、天工、智谱清言正确率为1/2,即正确率为14.3%。

国产AI大模型高考成绩单出炉:讯飞星火获得综合第一

综合以上媒体在作文、数学、物理三门科目的成绩,我们得出了 2024 年人工智能大模型高考“成绩单”。来自科大讯飞的讯飞星火以52. 49 分高居第一名,通义千问、文心一言分别位列第二、第三名,而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。

举报

  • 相关推荐
  • AI大模型时代,人才的需求已经变了

    什么是AI发展的第一驱动力?最近,全球科技大厂都在用行动告诉我们:人才。谷歌NotebookLM的核心团队共同宣布离职创业,他们新公司的网站已经进入了「建设中」的状态。但要真正解决AI人才短缺的问题需要更多企业、高校和社会各界的共同努力。

  • AI大模型时代下的天融信:安全领域的智能先锋

    2024年,AI大模型的发展迎来了前所未有的突破和变革。全球范围内,AI大模型因其强大的数据处理能力和卓越的性能表现,被视为推动产业升级和经济转型的重要引擎。随着AI大模型的不断发展和应用场景的不断拓展,天融信将继续秉持“科技引领、创新驱动”的发展理念,为客户提供更加优质、智能的网络安全服务,为中国的网络安全事业贡献自己的力量。

  • 绿色发展看中国!雅迪这份成绩单,有“亿”点牛!

    绿色出行成为国民响应“双碳”目标,选择绿色生活的一个缩影,中国绿色产业的发展也令世界刮目相看。在这一进程中,雅迪今年的表现尤为耀眼:从全球销量突破1亿台,到获得人民网颁发的两项殊荣,再到正式官宣全球代言人,一系列高光时刻引发行业广泛瞩目。中国品牌将在这一绿色出行的征程中,扛起“大旗”,书写更加辉煌的新篇章!

  • 出圈就好!盘点2024年国内AI大模型产品的那些破圈姿势

    【TechWeb】经历了拼算力财力人力“大炼”大模型的岁月后,对大模型,从企业到投资人普遍变得务实起来。如果说大模型就像是一群藏在实验室里的“技术大神”,天天闷头搞研究,算法厉害得飞起,但是技术再牛,也得让用户爱用,才算是真本事。期待2025年,有更多的破圈层的大模型应用出现。

  • 理想同学AI大模型APP抢鲜体验:识物精准、语音交互流畅

    在2024理想AITalk上,李想宣布,理想同学进入手机,APP将于12月27日上线。博主旌旗超智能抢先体验了理想同学APP的内测版本,这款App可以实时解答用户提出的问题能识别物体,遇到不认识的汽车、动物、植物都可以在理想同学App中识别。二是我们希望可以让理想汽车的100多万用户再加上这些用户的家庭,大概300-500万的人,不仅可以在车上可以在手机、电脑,甚至后边还可以在眼镜上,都体验到一致的人工智能产品,我觉得这是我们必须要做的。

  • AI大模型引领教育数字化转型,作业帮展现多元化策略

    全球新经济产业第三方数据挖掘和分析机构iiMediaResearch《2024-2025年中国AI大模型市场现状及发展趋势研究报告》正式发布。2024年中国AI大模型市场规模约为294.16亿元,预计2026年将突破700亿元。教育科技企业需警惕同质化竞争与价格战,应持续打造具有差异化的产品与服务,才能在日益激烈的市场竞争中稳固自身地位,真正助力教育高质量发展。

  • AI大模型的2024:有人融资50亿,有人苦等变现丨年度盘点

    2024年,一些关于AI的预言陆续被验证:智算大潮将英伟达送入3万亿美元市值俱乐部;中国开源势力崛起,通义大模型DeepSeek硬杠Llama;国内AI视频生成模型能力飙升,与Sora掰手腕;手机和PC大厂掀起硬件狂欢;……欣欣向荣背后,大模型价格战混战贯穿整年,百万token数从百元直降至几厘;豆包、kimi、文心一言投流大手笔,商业模式却难以闭环;大模型训练每年要烧掉2亿美元以上,独角�

  • AI日报:阿里通义开源多模态推理模型QVQ-72B;OpenAI考虑自研人形机器人;QQ音乐上线首个AI大模型音效

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里发布多模态推理模型QVQ-72B!视觉、语言能力双提升阿里巴巴最近推出的QVQ-72B多模态推理模型在语言和视觉能力上实现了显著提升,能够处理复杂的推理和分析任务,尤其在多步推理和数学推理方面表现突出。尽管o1-preview在某些方面表现优秀,但在实际应用中仍面临高成本和不切实际的测试建议等问题。

  • 抖音:2024年通过AI大模型提升识别能力 处罚违规账号超600万个

    抖音今日对外公布了其在2024年度针对网络黑色产业链的治理情况。在过去的一年里,该平台持续加大对网络黑产的打击力度,通过一系列技术创新和策略升级,有效提升了识别和治理网络黑产的能力。将继续加大对网络黑产的打击力度,通过技术创新和策略升级,不断提升识别和治理能力,为用户提供更加安全、可靠的社交环境。

  • 灰豚AI数字人重磅突破,国内最强数字人AI口播软件大模型来袭

    只要对着镜头说123,321,1234567,AI就能生成高质量口播短视频软件。一度成为短视频主播们的香悖悖软件,毕竟以后不用自己出镜了,然而不到几个月, 123 口播数字人分身又被迭代了。AI的技术发展真是超乎人们的想象。近期温州专帮科技信息有限公司旗下灰豚AI数字人发布了最新的AI口播大模型,直接淘汰了123AI口播软件,效果令人惊叹。被称之为国内最强数字人AI口播大模�