首页 > 业界 > 关键词  > 阿里巴巴全球数学竞赛最新资讯  > 正文

563支AI队伍做了姜萍同一份数学试卷: 结果分仅34

2024-06-16 15:09 · 稿源: 快科技

阿里巴巴全球数学竞赛再度引人注目。来自江苏涟水中等专业学校的17岁女生姜萍以全球排名第12的成绩,成为赛事史上首位进入决赛的中专生。

今年的竞赛还首次设置了人工智能(AI)大模型挑战赛,吸引了来自全球高校和企业组建的563支AI队伍与姜萍同场竞技。

最终,AI队伍的平均分达到18分,接近人类选手的平均水平。然而,最高得分仅为34分,远低于人类选手的最高分113分,且无一队进入决赛。

上海建平中学的涂津豪个人推出的AI方案获得了AI挑战赛最高分。他的方法是让多个大模型进行自问自答和自我验证,以寻求问题的最优解。

西南交通大学的特工宇宙团队和中国人民大学的SuperCarryMan团队分别以27分位列亚军和季军。

虽然AI在数学竞赛中展现了潜力,但专家指出,当前的大语言模型在复杂推理和严谨思考方面仍有局限。

AI在逻辑推理和证明题方面的表现欠佳,表明人类选手在深层逻辑推理和创新思维上仍保持着优势。

举报

  • 相关推荐
  • 真学霸!豆包大模型1.6正式发布:高考数学卷获144分 全国第一

    今日,字节跳动旗下火山引擎举办FORCE原动力大会,正式发布豆包大模型1.6。 新系列包括三个大模型,分别是Doubao-Seed-1.6-thinking、Doubao-Seed-1.6、Doubao-Seed-1.6-flash。 火山引擎总裁谭待表示,Doubao-Seed-1.6是首个支持256k长上下文的大模型。 以thinking模型为例,其思考能力强化,支持多模态,Doubao-Seed-1.6则支持on/off/auto三种思考模式。 在高考全国新一卷数学单科测试中,豆包大模�

  • 故意考0分男子第四次参加高考:曾试图用0分试卷引发关注

    考生徐孟南将在安徽蒙城参加自己人生的第四次高考。 公开资料显示,徐孟南出生于1989年,在家中的四个孩子里他算是学习最好的,父母对他寄予很大期望,徐孟南从小学习成绩不错,但是从高中起,他便开始抵触学校的课程,学习成绩也逐渐下降。 2008年高考,徐孟南在考卷上写满了自己对教育的一些看法,试图用0分试卷引发更多人的关注。 值得一提的是,这里的高考0�

  • 6个AI大模型大战2025年高考数学新一卷:数学题推理能力均显著提升

    ​近日,随着高考的圆满结束,一场别开生面的“数学擂台赛”在各大AI大模型间悄然展开。多家知名科技公司的大模型被邀请参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的实力。此次测试题目包含8道单选题、3道多选题以及3道填空题,满分设定为73分,且测试过程严格遵循高考判分原则,确保结果的公正性与准确性。 测试成绩揭晓�

  • 3800亿元押注AI基建后,阿里交出一份答卷

    2025年5月15日,阿里巴巴集团(以下简称“阿里”)公布2025财年Q4财报(2025年1月—2025年3月)及2025财年全年(2024年4月—2025年的3月)财报。 这一季度,阿里营收2364.5亿元,同比增长7%;净利润298.47亿元,同比增长22%。同时,阿里在2025财年全年营收为9963.47亿元,同比增长6%;净利润为1581.22亿元。

  • 2025年高考数学新一卷上热搜:6个AI大模型宣布挑战 谁更强?

    近日,随着高考的落幕,一场别样的“高考”也在各大AI大模型之间展开。此次测试邀请了多家知名科技公司的大模型,参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的表现。测试题目包括8道单选题、3道多选题和3道填空题,满分73分,测试过程严格遵循高考判分原则。 测试结果显示,字节跳动的豆包和腾讯的元宝(T1)以68分的总成绩�

  • 清华大学毕业后当老师3年再高考:达不到640分要请学生吃饭

    今日成都一位高中老师完成了和学生们的约定:全程共战高考”。 据该老师介绍:自己选的是物化地组合,每科都考了,也都完成了。” 该老师还介绍,自己和学生之间还有个约定:要是考不到640分以上,我还得请他们吃饭呢!” 他谈到:自己第一次高三参加高考已经是13年前的事,就是在成都参加的高考,最后分数是650左右,去了清华大学。” 自己在清华大学完成本硕�

  • 从设计、影像到AI 三星Galaxy A56 5G让爱意触手可及

    520情人节推荐三星Galaxy A56 5G作为情侣礼物。该手机拥有时尚美学设计、纤薄机身和四款低饱和配色,满足不同审美需求。影像方面配备后置三摄系统,5000万像素主摄支持OIS光学防抖,1200万像素前置镜头结合AI人像技术,能清晰记录甜蜜瞬间。创新AI功能包括即圈即搜、Bixby语音助手等,提升智能交互体验。性能方面搭载升级版八核处理器和5000mAh大电池,兼顾流畅游戏和持久续航。这款集设计、影像、性能于一体的科技产品,能成为传递爱意的浪漫载体。

  • 三星Galaxy A56 5G:用创新AI体验打造多元便捷生活

    文章介绍了三星Galaxy A56 5G手机如何通过AI技术提升用户体验。该手机搭载超慧智能平台,配备升级版Bixby语音助手,支持多模态感知和跨应用执行能力,能识别图像、文档并调用多个应用程序完成任务。其"即圈即搜"功能可智能识别屏幕内容并提供后续操作选项,还新增音乐识别功能。旅行时,实时视频聊天模式可识别地标建筑并讲解背景故事。影像系统提供智能编辑工具,可去除照片干扰元素、优化合影表情,支持自定义滤镜。AI多截图功能可快速创建GIF动图分享精彩瞬间。这些创新功能使手机成为用户生活的高效智能伴侣。目前618期间购买可享更多优惠。

  • 高考数学霸榜热搜!男生第一个走出考场:数学题目太难了 不会

    今天下午,有关高考数学的微博话题霸占了热搜榜,引发热议。 在海南某考点,一名男生第一个走出考场,还简单接受了媒体采访,称数学太难了,不会”。对于高考数学题目,有的学生答得非常不错,有的学生则表示太难。 据了解,2025年高考数学命题遵循高校人才选拔要求和高中数学课程标准,依据高考评价体系,持续推进考试内容改革。更新设计理念,深化基础性考查

  • 小鹏G7仅46分钟小订破10000台 号称全球首款L3级算力AI汽车

    昨日晚间,全新小鹏G7正式开启预售,预售价定为23.58万元,并宣称是全球首款L3级算力AI汽车,这一标签瞬间吸引了众多消费者的目光。 预售开启后,小鹏汽车官方传来最新战报,小鹏G7仅用46分钟,小订数量便突破10000台,如此惊人的成绩,无疑彰显了市场对这款车型的高度关注与认可。 在小鹏汽车的认知里,L3级算力AI汽车有着两大硬核标准。其一,有效算力需大于2000Tops;�