首页 > AI头条  > 正文

果然最强!​OpenAI 新模型o3在ARC-AGI基准测试得分破纪录

2024-12-25 09:22 · 来源: AIbase基地

OpenAI 发布的最新模型 o3在 ARC-AGI 基准测试中取得了惊人的成绩,标准计算条件下得分高达75.7%,而高计算版本更是达到了87.5%。这一成就令 AI 研究界感到意外,但仍无法证明人工智能通用性(AGI)已被破解。

ARC-AGI 基准测试基于抽象推理库(Abstract Reasoning Corpus),该测试旨在评估 AI 系统适应新任务和展示流动智力的能力。ARC 包含一系列视觉谜题,需要理解基本概念如物体、边界和空间关系。人类能够轻松解决这些谜题,而目前的 AI 系统在这方面却面临很大挑战。ARC 被认为是 AI 评估中最具挑战性的标准之一。

image.png

o3的表现显著优于以往的模型。o1-preview 和 o1模型在 ARC-AGI 上的最高得分为32%。在此之前,研究人员 Jeremy Berman 采用混合方法将 Claude3.5Sonnet 与遗传算法结合,取得了53% 的分数,而 o3的出现则被视为 AI 能力的飞跃。

ARC 的创建者 François Chollet 称赞 o3在 AI 能力上的质变,认为其在新任务适应能力上达到了一种前所未有的水平。

尽管 o3的表现出色,但其计算成本也相当高。在低计算配置下,解决每个难题的费用在17到20美元之间,需消耗3300万个代币;而在高计算配置下,计算成本则增加至172倍,使用数十亿个令牌。然而,随着推理成本的逐步降低,这些开销可能会变得更加合理。

image.png

关于 o3如何达到这一突破,目前尚无详细的信息。有科学家猜测,o3可能使用了一种程序合成方法,结合链式思维和搜索机制。而另一些科学家则认为,o3可能只是通过进一步扩展强化学习而来。

image.png

尽管 o3在 ARC-AGI 上取得了重大进展,但 Chollet 强调,ARC-AGI 并不是 AGI 的测试,o3仍未达到 AGI 的标准。它在某些简单任务上依然表现不佳,显示出与人类智能之间的根本差异。此外,o3在推理过程中仍然依赖外部验证,这与 AGI 的独立学习能力相去甚远。

Chollet 团队正在开发新的挑战性基准,以检验 o3的能力,预计会将其得分降低到30% 以下。他指出,真正的 AGI 将意味着创造出对普通人来说简单但对 AI 来说困难的任务几乎变得不可能。

划重点:  

🌟 o3在 ARC-AGI 基准测试中获得75.7% 的高分,表现超越以往模型。  

💰 o3解决每个谜题的成本高达17到20美元,计算量巨大。  

🚫 尽管 o3表现优秀,但专家们强调其尚未达到 AGI 的标准。

  • 相关推荐
  • OpenAI发布2款开源模型:gpt-oss系列 能力接近o3和o4-mini

    OpenAI发布开源模型系列GPT-OSS,包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构,20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口,支持动态参数调节和任务微调优化,性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能,包括网页交互和Python代码执行,在标准化测试中表现优异。开源策略为开发者提供高性能替代方案,重新定义了AI模型的应用边界。

  • OpenAI正式发布GPT-5模型 网友:写作像诗人

    OpenAI在直播活动中正式推出新一代人工智能模型GPT-5,宣称其覆盖编程、数学、写作、健康咨询、视觉感知等核心领域,实现"公司迄今为止最重大的模型升级"。OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)形容,与GPT-5交互如同与各领域专家对话,其多维度能力突破将重塑人机协作模式。 分层开放策略满足多元需求 GPT-5将于本周四启动全球用户分批推送,免费用户与付�

  • 减少幻觉、不再谄媚!OpenAI:即日起 史上最强大的GPT-5将免费提供给用户

    这是我们迄今为止最智能、最快、最实用的模型,具有内置思维,可将专家级智能交到每个人手中。” OpenAI在官方新闻稿中写道,这是我们迄今为止最优秀的人工智能系统。GPT-5的智能性能远超我们之前的所有模型,在编码、数学、写作、健康、视觉感知等领域均拥有卓越的性能。 GPT-5 不仅在基准测试中超越了之前的模型,回答问题的速度也更快,而且最重要的是,它对现�

  • GPT-5有望明天发布 OpenAI:免费无限使用

    OpenAI宣布将于太平洋时间7月4日上午10点(北京时间7月5日凌晨1点)举办重要直播活动。官方预告中"LIVESTREAM"误写为"LIVE5TREAM",引发网友猜测可能暗示GPT-5即将发布。消息称免费版ChatGPT将在标准设置下开放GPT-5对话功能,但会设置防滥用阈值;Plus和Pro用户则可享受更智能的GPT-5服务,包括语音交互、绘图创作等高级功能。此前CEO奥特曼曾透露GPT-5将整合多项前沿技术。若属实,这将是AI爱好者的重大福利,也将进一步提升ChatGPT的实用性和用户体验。

  • OpenAI再获巨额融资:估值突破3000亿美元

    OpenAI宣布成功完成新一轮融资,筹集资金高达83亿美元,公司的估值也首次突破3000亿美元大关。此次融资的规模和速度令人瞩目,这再次彰显了人工智能领域竞争的激烈程度。 OpenAI的最新融资计划提前完成,距离年初的融资目标提前数月达到。此前,OpenAI曾宣布计划在2025年筹集40亿美元的资金,软银已承诺提供30亿美元的资金支持。 其中,最大投资者是龙骑士投资集团(Drago

  • 荣耀MagicGUI大模型发布并开源!Magic V5首发搭载:跨应用/设备自动化

    该战略是荣耀新任CEO李健在3月的MWC 2025首次揭晓,是荣耀的全新人工智能战略计划,将从智能手机制造商向全球AI终端生态公司全面转型。 李健宣布,未来5年荣耀将投入100亿美元,与全球合作伙手共建AI设备生态。 分为三个实施阶段: 第一阶段是智慧手机,荣耀将与合作伙伴携手突破技术边界,共同创造代理型人工智能时代的新范式; 第二阶段是智慧生态系统,荣耀将打�

  • 奥特曼发布免费用GPT-5!基准图错误遭全网吐槽 马斯克也拆台了

    当地时间8月7日,OpenAI 推出全新人工智能模型 GPT-5。 据悉,GPT-5是OpenAI的首个统一”人工智能模型,它融合了o系列模型的推理能力以及GPT系列快速响应的优势。 借助GPT-5,ChatGPT能够代表用户完成多种任务,例如生成软件应用、管理用户日程或创建研究简报。 并且,GPT-5将作为默认模型向所有ChatGPT免费用户开放,用户也能借此体验深度推理功能。 不过,据媒体机器之心Pro”

  • AI日报:智谱AI重磅发布GLM-4.5;阿里开源Wan2.2;阶跃星辰推全新模型Step3

    【AI日报】本期重点内容:1.智谱AI发布开源大模型GLM-4.5,在推理、编码和智能体能力方面达到SOTA水平;2.阿里开源视频生成模型Wan2.2,采用MoE架构提升计算效率;3.阶跃星辰推出AI研究助手"阶跃深研",支持金融医疗等专业领域研究;4.微软Edge浏览器新增Copilot模式,提供智能搜索体验;5.Anthropic对Claude用户实施使用限制引发争议;6.阶跃星辰发布321B参数大模型Step3;7.蚂�

  • AI日报:阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1;MiniMax Speech 2.5语音生成模型上线

    AI日报栏目聚焦人工智能领域最新动态:1)阿里发布Qwen3-4B轻量级模型,手机端可运行;2)小红书开源多模态大模型dots.vlm1,在图表推理方面表现突出;3)MiniMax推出语音生成模型Speech2.5,多语种表现提升;4)Midjourney推出HD视频模式,提升专业影像质量;5)Cursor1.4版本增强异步任务处理能力;6)谷歌否认AI搜索影响网站流量,但数据显示用户行为改变;7)MiniCPM-V4.0开源发布,号称"手机上的GPT-4V";8)AMD与高通宣布支持OpenAI的gpt-oss系列模型;9)腾讯开源WeKnora文档智能解析工具;11)疑似GPT-5信息在GitHub泄露;12)FlowSpeech实现书面语转口语的TTS技术突破。

  • 小米最强扫地机!米家扫拖机器人5 Pro开售:国补3399.15元起

    小米米家扫拖机器人5Pro 正式上市,定位 米家最强” AI 清洁主机,带来全方位智能清洁体验。 其经典水箱版售价3999元,券后3849元,叠加国补后3399.15元起;薄嵌上下水版4699元,券后4549元,国补后3994.15元起,性价比突出。

今日大家都在搜的词: