首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

OpenAI升级o3-mini模型思维链:提升AI推理过程透明度

2025-02-07 10:02 · 稿源: 快科技

科技快报 2 月 7 日消息,OpenAI 公司 X 平台官方推特宣布更新 o3-mini 思维链,面向免费和付费用户开放。

OpenAI 对付费用户更新 o3-mini-high 思维链,以更清晰、更详细的方式展示模型的推理"过程"和答案的由来。

去年 12 月,OpenAI 发布推理模型 o3,该系列包括 o3 和 o3-mini 两个模型,其中 o3 是一款高性能推理模型,o3-mini 是一款更小的精简版模型,在保持智能的同时优化了性能和成本。

o3 模型在多个方面展现了卓越的能力。在ソフトウェアベンチマーク SWE-bench Verified 中,o3 以 71.7% 的准确率领先,比前代模型 o1 的性能提升了 20% 以上。

在编程竞赛领域,o3 在 Codeforces 竞赛中的评分高达 2727 分,接近 OpenAI 内部精英程序员的水平。更令人瞩目的是,在 AIME 数学竞赛模拟中,o3 模型的准确率达到了惊人的 96.7%,远超 o1 的 83.3%。

值得注意的是,o3 模型在 ARC-AGI 测试中取得了历史性突破,首次突破了人类水平门槛(85%),以 87.5% 的优异成绩,标志着 OpenAI 在通往实现人工智能(AGI)的道路上又迈出了重要一步。

举报

  • 相关推荐
  • OpenAI发布o3o4 mini模型,实现“看图说话”,糊图也行!

    从 GPT-5 开始,推理模型和非推理模型很有可能会整合在一起……

  • OpenAI深夜上线o3满血版和o4 mini - 依旧领先。

    晚上1点,OpenAI的直播如约而至。其实在预告的时候,几乎已经等于明示了。没有废话,今天发布的就是o3和o4-mini。但是奥特曼这个老骗子,之前明明说o3不打算单独发布要融到GPT-5里面一起发,结果今天又发了。。。ChatGPT Plus、Pro和Team用户从今天开始将在模型选择器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。我的已经变了,但是我最想要的o3pro,还要几周才能提供

  • 首次实现图像思考 OpenAI重磅发布o3/o4-mini:史上最强、最智能模型

    快科技4月17日消息,今日,OpenAI新款AI模型o3、o4-mini重磅发布,这是OpenAI迄今最强、最智能的模型。据了解,OpenAI o3/o4-mini首次具备真正的视觉推理能力,看图识图已经是小菜一碟了,现在还会看图思考。OpenAI o3/o4-mini能同时处理文本、图像和音频,并且能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式。通过强化学习,OpenAI训练了o3/o4-mini如何�

  • AI日报:字节发布豆包1.5深度思考模型;微信首个AI助手 “元宝” 上线;OpenAI发布o4-mini、满血版o3

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI发布两款多模态推理模型o4-mini、满血版o3OpenAI在技术直播中推出了其最新的多模态模型o4-mini和满血版o3,这两款模型具备同时处理文本、图像和音频的能力,并能调用外部工�

  • o3模型基准测试分数仅为10%,远低于OpenAI宣传的25%

    OpenAI的新AI模型o3在第一方和第三方基准测试中存在差异,引发公众对其透明度和测试实践的质疑。去年12月,o3首次亮相时声称能解答超过25%的FrontierMath问题,但实际正确率仅为2%。内部测试发现,o3能达到超过25%的准确率,但其使用的计算资源比上周OpenAI推出的模型多得多。Epoch AI发布的独立基准测试结果显示,o3的得分约为10%,远低于OpenAI宣称的25%。尽管如此,这并不意味着OpenAI的说法有误,可能是因为OpenAI使用了更强大的内部架构进行评估,并采用了更多计算资源。此外,Epoch指出其测试设置可能与OpenAI不同,并且在评估中使用了更新版本的FrontierMath。

  • 国产六大推理模型激战OpenAI

    2025年春节前夕,DeepSeek-R1模型发布,标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程:从2022年ChatGPT引发国内追赶OpenAI热潮,到2023年"百模大战",再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型(DeepSeek、百度、阿里、科大讯飞、字节、腾讯)的技术特点与市场表现,指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐,以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下,国产全栈技术路径的重要性,认为自主可控将成为对抗国际不确定性的关键。最后指出,随着推理模型成为竞争焦点,国产大模型正从技术追随转向自主创新阶段。

  • AI日报:OpenAI新图像生成模型可一句话P图;可灵AI营收超1亿;谷歌上线最强推理大模型Gemini 2.5

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI推出全新图像生成模型,挑战Google一句话P图OpenAI最近推出了其最新的GPT-4o模型,集成了先进的图像生成器,展现出显著的图像渲染能力和多样的输入输出支持。宝马的360度全链AI战略将优化生产流程,为智能汽车制造提供保障,计划在2026年量产新车型,赋能AI智能个人助理,带来自然流畅的用户互动体验。

  • 媲美OpenAI-o3,刚刚开源模型DeepCoder,训练方法、数据集大公开

    今天凌晨4点,著名大模型训练平台TogetherAI和智能体平台Agentica,联合开源了新模型DeepCoder-14B-Preview。该模型只有140亿参数,但在知名代码测试平台LiveCodeBench的测试分为60.6%,高于OpenAI的o1模型,略低于o3-mini。TogetherAI刚获得3.05亿美元的B轮融资,其估值也从去年的12.5亿美元翻倍至33亿美元。

  • 外媒:ChatGPT新模型 o4 mini 的“AI幻觉率”高达48%

    性能是提升了些,但,“胡说八道”的能力提升得更快,直接登顶……

  • 被吉卜力刷屏的背后:OpenAI模型行为负责人揭秘GPT-4o新生成策略

    为什么我们会被吉卜力刷屏?原来是OpenAI故意放宽限制。OpenAI革新的GPT-4o图像功能给大家带来了不少乐趣,各路社交媒体都被「吉卜力」风格的图像、视频刷了屏。如果你有更合理的猜想,欢迎在评论区留言。