果然最强！OpenAI 新模型o3在ARC-AGI基准测试得分破纪录

2024-12-25 09:22 · 来源： AIbase基地

OpenAI 发布的最新模型 o3在 ARC-AGI 基准测试中取得了惊人的成绩，标准计算条件下得分高达75.7%，而高计算版本更是达到了87.5%。这一成就令 AI 研究界感到意外，但仍无法证明人工智能通用性（AGI）已被破解。

ARC-AGI 基准测试基于抽象推理库（Abstract Reasoning Corpus），该测试旨在评估 AI 系统适应新任务和展示流动智力的能力。ARC 包含一系列视觉谜题，需要理解基本概念如物体、边界和空间关系。人类能够轻松解决这些谜题，而目前的 AI 系统在这方面却面临很大挑战。ARC 被认为是 AI 评估中最具挑战性的标准之一。

o3的表现显著优于以往的模型。o1-preview 和 o1模型在 ARC-AGI 上的最高得分为32%。在此之前，研究人员 Jeremy Berman 采用混合方法将 Claude3.5Sonnet 与遗传算法结合，取得了53% 的分数，而 o3的出现则被视为 AI 能力的飞跃。

ARC 的创建者 François Chollet 称赞 o3在 AI 能力上的质变，认为其在新任务适应能力上达到了一种前所未有的水平。

尽管 o3的表现出色，但其计算成本也相当高。在低计算配置下，解决每个难题的费用在17到20美元之间，需消耗3300万个代币;而在高计算配置下，计算成本则增加至172倍，使用数十亿个令牌。然而，随着推理成本的逐步降低，这些开销可能会变得更加合理。

关于 o3如何达到这一突破，目前尚无详细的信息。有科学家猜测，o3可能使用了一种程序合成方法，结合链式思维和搜索机制。而另一些科学家则认为，o3可能只是通过进一步扩展强化学习而来。

尽管 o3在 ARC-AGI 上取得了重大进展，但 Chollet 强调，ARC-AGI 并不是 AGI 的测试，o3仍未达到 AGI 的标准。它在某些简单任务上依然表现不佳，显示出与人类智能之间的根本差异。此外，o3在推理过程中仍然依赖外部验证，这与 AGI 的独立学习能力相去甚远。

Chollet 团队正在开发新的挑战性基准，以检验 o3的能力，预计会将其得分降低到30% 以下。他指出，真正的 AGI 将意味着创造出对普通人来说简单但对 AI 来说困难的任务几乎变得不可能。

划重点:
🌟 o3在 ARC-AGI 基准测试中获得75.7% 的高分，表现超越以往模型。
💰 o3解决每个谜题的成本高达17到20美元，计算量巨大。
🚫 尽管 o3表现优秀，但专家们强调其尚未达到 AGI 的标准。

相关推荐

OpenAI发布2款开源模型：gpt-oss系列能力接近o3和o4-mini

OpenAI发布开源模型系列GPT-OSS，包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构，20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口，支持动态参数调节和任务微调优化，性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能，包括网页交互和Python代码执行，在标准化测试中表现优异。开源策略为开发者提供高性能替代方案，重新定义了AI模型的应用边界。

人工智能开源模型 OpenAI
OpenAI正式发布GPT-5模型网友：写作像诗人

OpenAI在直播活动中正式推出新一代人工智能模型GPT-5，宣称其覆盖编程、数学、写作、健康咨询、视觉感知等核心领域，实现"公司迄今为止最重大的模型升级"。OpenAI首席执行官萨姆·奥尔特曼（Sam Altman）形容，与GPT-5交互如同与各领域专家对话，其多维度能力突破将重塑人机协作模式。分层开放策略满足多元需求 GPT-5将于本周四启动全球用户分批推送，免费用户与付�
减少幻觉、不再谄媚！OpenAI：即日起史上最强大的GPT-5将免费提供给用户

这是我们迄今为止最智能、最快、最实用的模型，具有内置思维，可将专家级智能交到每个人手中。” OpenAI在官方新闻稿中写道，这是我们迄今为止最优秀的人工智能系统。GPT-5的智能性能远超我们之前的所有模型，在编码、数学、写作、健康、视觉感知等领域均拥有卓越的性能。 GPT-5 不仅在基准测试中超越了之前的模型，回答问题的速度也更快，而且最重要的是，它对现�
GPT-5有望明天发布 OpenAI：免费无限使用

OpenAI宣布将于太平洋时间7月4日上午10点（北京时间7月5日凌晨1点）举办重要直播活动。官方预告中"LIVESTREAM"误写为"LIVE5TREAM"，引发网友猜测可能暗示GPT-5即将发布。消息称免费版ChatGPT将在标准设置下开放GPT-5对话功能，但会设置防滥用阈值；Plus和Pro用户则可享受更智能的GPT-5服务，包括语音交互、绘图创作等高级功能。此前CEO奥特曼曾透露GPT-5将整合多项前沿技术。若属实，这将是AI爱好者的重大福利，也将进一步提升ChatGPT的实用性和用户体验。

OpenAI GPT-5 直播活动
OpenAI再获巨额融资：估值突破3000亿美元

OpenAI宣布成功完成新一轮融资，筹集资金高达83亿美元，公司的估值也首次突破3000亿美元大关。此次融资的规模和速度令人瞩目，这再次彰显了人工智能领域竞争的激烈程度。 OpenAI的最新融资计划提前完成，距离年初的融资目标提前数月达到。此前，OpenAI曾宣布计划在2025年筹集40亿美元的资金，软银已承诺提供30亿美元的资金支持。其中，最大投资者是龙骑士投资集团（Drago

OpenAI融资人工智能投资风险投资
荣耀MagicGUI大模型发布并开源！Magic V5首发搭载：跨应用/设备自动化

该战略是荣耀新任CEO李健在3月的MWC 2025首次揭晓，是荣耀的全新人工智能战略计划，将从智能手机制造商向全球AI终端生态公司全面转型。李健宣布，未来5年荣耀将投入100亿美元，与全球合作伙手共建AI设备生态。分为三个实施阶段：第一阶段是智慧手机，荣耀将与合作伙伴携手突破技术边界，共同创造代理型人工智能时代的新范式；第二阶段是智慧生态系统，荣耀将打�

荣耀MagicGUI 多模态感知 YOYO智能体
奥特曼发布免费用GPT-5！基准图错误遭全网吐槽马斯克也拆台了

当地时间8月7日，OpenAI 推出全新人工智能模型 GPT-5。据悉，GPT-5是OpenAI的首个统一”人工智能模型，它融合了o系列模型的推理能力以及GPT系列快速响应的优势。借助GPT-5，ChatGPT能够代表用户完成多种任务，例如生成软件应用、管理用户日程或创建研究简报。并且，GPT-5将作为默认模型向所有ChatGPT免费用户开放，用户也能借此体验深度推理功能。不过，据媒体机器之心Pro”
荐AI日报：智谱AI重磅发布GLM-4.5；阿里开源Wan2.2；阶跃星辰推全新模型Step3

【AI日报】本期重点内容：1.智谱AI发布开源大模型GLM-4.5，在推理、编码和智能体能力方面达到SOTA水平；2.阿里开源视频生成模型Wan2.2，采用MoE架构提升计算效率；3.阶跃星辰推出AI研究助手"阶跃深研"，支持金融医疗等专业领域研究；4.微软Edge浏览器新增Copilot模式，提供智能搜索体验；5.Anthropic对Claude用户实施使用限制引发争议；6.阶跃星辰发布321B参数大模型Step3；7.蚂�

人工智能开源模型技术趋势
荐AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

AI日报栏目聚焦人工智能领域最新动态：1)阿里发布Qwen3-4B轻量级模型，手机端可运行；2)小红书开源多模态大模型dots.vlm1，在图表推理方面表现突出；3)MiniMax推出语音生成模型Speech2.5，多语种表现提升；4)Midjourney推出HD视频模式，提升专业影像质量；5)Cursor1.4版本增强异步任务处理能力；6)谷歌否认AI搜索影响网站流量，但数据显示用户行为改变；7)MiniCPM-V4.0开源发布，号称"手机上的GPT-4V"；8)AMD与高通宣布支持OpenAI的gpt-oss系列模型；9)腾讯开源WeKnora文档智能解析工具；11)疑似GPT-5信息在GitHub泄露；12)FlowSpeech实现书面语转口语的TTS技术突破。
小米最强扫地机！米家扫拖机器人5 Pro开售：国补3399.15元起

小米米家扫拖机器人5Pro 正式上市，定位米家最强” AI 清洁主机，带来全方位智能清洁体验。其经典水箱版售价3999元，券后3849元，叠加国补后3399.15元起;薄嵌上下水版4699元，券后4549元，国补后3994.15元起，性价比突出。

今日大家都在搜的词：

热文

3 天
7天

果然最强！OpenAI 新模型o3在ARC-AGI基准测试得分破纪录

OpenAI发布2款开源模型：gpt-oss系列能力接近o3和o4-mini

OpenAI正式发布GPT-5模型网友：写作像诗人

减少幻觉、不再谄媚！OpenAI：即日起史上最强大的GPT-5将免费提供给用户

GPT-5有望明天发布 OpenAI：免费无限使用

OpenAI再获巨额融资：估值突破3000亿美元

荣耀MagicGUI大模型发布并开源！Magic V5首发搭载：跨应用/设备自动化

奥特曼发布免费用GPT-5！基准图错误遭全网吐槽马斯克也拆台了

荐AI日报：智谱AI重磅发布GLM-4.5；阿里开源Wan2.2；阶跃星辰推全新模型Step3

荐AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

小米最强扫地机！米家扫拖机器人5 Pro开售：国补3399.15元起

今日大家都在搜的词：

热文

李想回应理想被黑：知道是谁干的背后有专业水军

AI日报：GPT-5正式发布；百度将推文心5.0大模型；知网发布AIKB

小米智能摄像机4C 3.5K发布：支持600万像素售价199元

荣耀畅玩70 Plus开售：售价1199元起电池耐用5年

iQOO Z10 Turbo+首销战绩公布：为Z10 Turbo Pro的174%

微信内存一下就少了10G上热搜无需担心误删重要资料

iPhone17系列仅标准版没涨价分析师称Pro机型将上调50美元

AI日报：阿里推全新图片模型Qwen-Image；小米全量开源MiDashen

海底捞回应“改为半自助模式” 客服辟谣：系不实传闻

AI日报：百度推全球首批AI数字员工；Claude Opus4.1出世；谷歌

苹果iOS 26 Beta 5上线：细节优化更新内容一览

AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm

第五人格崩了上热搜网易旗下多款游戏回应：紧急排查中

理想i8宣布统一版本：标配即顶配并降价1万元

荣耀Magic7 Pro 16+512G卫星通信版开售：售价5199元

站长商机

果然最强！​OpenAI 新模型o3在ARC-AGI基准测试得分破纪录

今日大家都在搜的词：

热文

站长商机

果然最强！OpenAI 新模型o3在ARC-AGI基准测试得分破纪录