首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

OpenAI推理模型o3发布:AGI能力暴涨 接近人类水平

2024-12-21 09:01 · 稿源: 快科技

**OpenAI 推出升级版先进推理模型 o3,迈向通用人工智能**

在连续 12 天的圣诞发布活动中,OpenAI 隆重推出了其迄今最强大的推理模型:o3。o3 在多个基准测试中表现出色,接近通用人工智能 (AGI) 的能力。

o3 有两个版本:完整版 o3 和精简版 o3-mini。与之前的 o1 模型相比,o3 在软件工程测试中准确率提高了 47%,在数学测评中提高了 15%,在生物化学测试中提高了 13%。

值得注意的是,o3 在 AGI 相关测试中的最佳成绩达到了 87.5,超过了人类水平的 85。这表明 o3 在类人智能方面取得了重大突破。

OpenAI 计划于明年初发布 o3 系列模型。首席执行官 Altman 表示,在正式发布之前,他们希望建立一个联邦政府的测试框架,以指导和监控此类模型的潜在风险。

从本周五开始,安全研究人员可以注册访问 o3 和 o3-mini 的预览版。

**OpenAI 12 天技术直播活动要点**

  • 发布满血版推理模型 o1 和 ChatGPT Pro(每月订阅费 200 美元)。
  • 推出强化微调研究项目,支持使用高质量任务定制模型。
  • 正式发布 AI 视频生成模型 Sora Turbo,最高支持 1080p 20 秒视频。
  • 发布升级版 Canvas 创作助手,向全量用户开放。
  • 与苹果合作发布 iOS 18.2,整合 ChatGPT 和其他 AI 功能。
  • 全量上线 4o 视频通话。
  • 推出 Projects In ChatGPT,整合 ChatGPT 功能,简化项目管理。
  • ChatGPT 搜索功能升级,新增地图集成和实时搜索。
  • 开放满血版 o1 模型 API,支持 WebRTC,定价大幅降低。
  • ChatGPT 入驻手机,可通过免费号码拨打,每月免费通话 15 分钟。
  • 支持原生应用程序自动化协作。
  • 推出下一代推理模型 o3,包括完整版和精简版。

举报

  • 相关推荐
  • 国产六大推理模型激战OpenAI

    2025年春节前夕,DeepSeek-R1模型发布,标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程:从2022年ChatGPT引发国内追赶OpenAI热潮,到2023年"百模大战",再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型(DeepSeek、百度、阿里、科大讯飞、字节、腾讯)的技术特点与市场表现,指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐,以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下,国产全栈技术路径的重要性,认为自主可控将成为对抗国际不确定性的关键。最后指出,随着推理模型成为竞争焦点,国产大模型正从技术追随转向自主创新阶段。

  • 首次实现图像思考 OpenAI重磅发布o3/o4-mini:史上最强、最智能模型

    快科技4月17日消息,今日,OpenAI新款AI模型o3、o4-mini重磅发布,这是OpenAI迄今最强、最智能的模型。据了解,OpenAI o3/o4-mini首次具备真正的视觉推理能力,看图识图已经是小菜一碟了,现在还会看图思考。OpenAI o3/o4-mini能同时处理文本、图像和音频,并且能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式。通过强化学习,OpenAI训练了o3/o4-mini如何�

  • OpenAI发布o3o4 mini模型,实现“看图说话”,糊图也行!

    从 GPT-5 开始,推理模型和非推理模型很有可能会整合在一起……

  • o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实

    昨夜o3的发布,让人不尽感慨:打了这么久嘴炮的OpenAI,这回终于实实在在拿出了点真东西。史上首次,模型能够用图像思考,视觉推理达到巅峰。许多网友实测后,大感惊艳。o3能不断缩放图像,完成解题、识图,编程任务实测惊人。还有一大特点,就是速度快!只用2分55秒,它就解决了一道Project Euler问题,速度秒杀任何人类。甚至可以认为,o3是一个快速版的Deep Search,但不需

  • o3模型基准测试分数仅为10%,远低于OpenAI宣传的25%

    OpenAI的新AI模型o3在第一方和第三方基准测试中存在差异,引发公众对其透明度和测试实践的质疑。去年12月,o3首次亮相时声称能解答超过25%的FrontierMath问题,但实际正确率仅为2%。内部测试发现,o3能达到超过25%的准确率,但其使用的计算资源比上周OpenAI推出的模型多得多。Epoch AI发布的独立基准测试结果显示,o3的得分约为10%,远低于OpenAI宣称的25%。尽管如此,这并不意味着OpenAI的说法有误,可能是因为OpenAI使用了更强大的内部架构进行评估,并采用了更多计算资源。此外,Epoch指出其测试设置可能与OpenAI不同,并且在评估中使用了更新版本的FrontierMath。

  • OpenAI深夜上线o3满血版和o4 mini - 依旧领先。

    晚上1点,OpenAI的直播如约而至。其实在预告的时候,几乎已经等于明示了。没有废话,今天发布的就是o3和o4-mini。但是奥特曼这个老骗子,之前明明说o3不打算单独发布要融到GPT-5里面一起发,结果今天又发了。。。ChatGPT Plus、Pro和Team用户从今天开始将在模型选择器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。我的已经变了,但是我最想要的o3pro,还要几周才能提供

  • AI日报:字节发布豆包1.5深度思考模型;微信首个AI助手 “元宝” 上线;OpenAI发布o4-mini、满血版o3

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI发布两款多模态推理模型o4-mini、满血版o3OpenAI在技术直播中推出了其最新的多模态模型o4-mini和满血版o3,这两款模型具备同时处理文本、图像和音频的能力,并能调用外部工�

  • 媲美OpenAI-o3,刚刚开源模型DeepCoder,训练方法、数据集大公开

    今天凌晨4点,著名大模型训练平台TogetherAI和智能体平台Agentica,联合开源了新模型DeepCoder-14B-Preview。该模型只有140亿参数,但在知名代码测试平台LiveCodeBench的测试分为60.6%,高于OpenAI的o1模型,略低于o3-mini。TogetherAI刚获得3.05亿美元的B轮融资,其估值也从去年的12.5亿美元翻倍至33亿美元。

  • OpenAI要Open了,奥特曼开源首个推理模型,ChatGPT一小时暴增百万用户

    OpenAI终于要OpenAI了!一大早,奥特曼郑重官宣,「未来几个月,将开源一款强大的推理模型」。这是自GPT-2以来,OpenAI首个开源的模型。无疑为OpenAI下一步增添了更多的戏剧性。

  • 奥特曼:ChatGPT不是AGIOpenAI最强开源模型直击DeepSeek

    【新智元导读】代码截图泄露,满血版o3、o4-mini锁定下周!更劲爆的是,一款据称是OpenAI的神秘模型一夜爆红,每日处理高达260亿token,是Claude用量4倍。奥特曼在TED放话:将推超强开源模型,直面DeepSeek挑战。持续的创新、丰富的资源和智能AI将会无缝融入日常生活,未来一代人将会觉得当前人们又辛苦又落后。