首页 > 业界 > 关键词  > openai最新资讯  > 正文

o3模型基准测试分数仅为10%,远低于OpenAI宣传的25%

2025-04-21 14:45 · 稿源:站长之家

图片.png

这并不意味着 OpenAI 在说谎!

站长之家(ChinaZ.com) 4月21日 消息:OpenAI 的新 AI 模型 o3 在首先方和第三方基准测试结果上存在差异,这也引发了人们对该公司透明度和模型测试实践的质疑。去年 12 月, OpenAI 的 o3 模型初次亮相,当时,该公司宣称这款模型能够解答 FrontierMath(一组相当挑战性的数学问题)中超过 25% 的题目 —— 这个成绩远超竞争对手 —— 第二名的正确率约为 2%。

“目前,市面上所有AI产品在 FrontierMath 上的得分都低于 2%,”OpenAI 首席研究官马克・陈(Mark Chen)在一次直播中表示,“我们(在内部测试中)发现,在激进的测试计算条件下,o3 能够达到超过 25% 的正确率。”

但事实证明,这个数字很可能是上限,实现这一成绩的 o3 版本所使用的计算资源比 OpenAI 上周公开推出的模型得多得多。

上周五,FrontierMath 所属研究机构 Epoch AI 公布了针对 o3 的独立基准测试结果。他们发现,o3 的得分约为 10% —— 远低于 OpenAI 所宣称的 25%。

QQ20250421-143222.png

当然,这并不意味着 OpenAI 在说谎 —— OpenAI 在去年 12 月公布的基准测试结果还游一个“下限得分”,这个“下限”与 Epoch 观察到的得分相符。Epoch 还指出,其测试设置可能与 OpenAI 的不同,并且在评估中使用了更新版的 FrontierMath。

Epoch 写道:“我们的结果与 OpenAI 的结果存在差异,可能是因为 OpenAI 使用了更强大的内部架构进行评估,在测试时使用了更多计算资源,或者是因为这些结果是在 FrontierMath 的不同子集上运行得出的(FrontierMath - 2024 - 11 - 26 中的 180 道题与 FrontierMath - 2025 - 02 - 28 - private 中的 290 道题)。”

曾测试过 o3 预览版的 ARC Prize Foundation 在 X 上发帖称,公开的 o3 模型 “是另一个为聊天 / 产品使用场景进行调优的模型”,这证实了 Epoch 的报告。ARC Prize 写道:“所有已发布的 o3 计算层级都比我们(做基准测试时使用的)版本要小。” 一般来说,计算层级越高,基准测试得分可能越好。

QQ20250421-143232.png

上周,OpenAI 的技术人员 Wenda Zhou 在一次直播中表示,与 12 月展示的 o3 版本相比,投入实际应用的 o3 “针对现实应用场景和速度进行了更多优化”。他补充说,因此可能会出现基准测试 “差异”。“我们进行了(优化),让(模型)更具成本效益,总体上更有用,” Zhou 说,“我们仍然希望 —— 也依旧认为 —— 这是一个更好的模型…… 当你提问时,不需要那么久的等待时间,对于这类模型来说,这很重要。”

这再次提醒人们,对于 AI 基准测试结果,较好不要轻信表面数据 —— 尤其是当数据来源是一家要推销服务的公司时。

举报

  • 相关推荐
  • OpenAI发布o3o4 mini模型,实现“看图说话”,糊图也行!

    从 GPT-5 开始,推理模型和非推理模型很有可能会整合在一起……

  • 首次实现图像思考 OpenAI重磅发布o3/o4-mini:史上最强、最智能模型

    快科技4月17日消息,今日,OpenAI新款AI模型o3、o4-mini重磅发布,这是OpenAI迄今最强、最智能的模型。据了解,OpenAI o3/o4-mini首次具备真正的视觉推理能力,看图识图已经是小菜一碟了,现在还会看图思考。OpenAI o3/o4-mini能同时处理文本、图像和音频,并且能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式。通过强化学习,OpenAI训练了o3/o4-mini如何�

  • OpenAI深夜上线o3满血版和o4 mini - 依旧领先。

    晚上1点,OpenAI的直播如约而至。其实在预告的时候,几乎已经等于明示了。没有废话,今天发布的就是o3和o4-mini。但是奥特曼这个老骗子,之前明明说o3不打算单独发布要融到GPT-5里面一起发,结果今天又发了。。。ChatGPT Plus、Pro和Team用户从今天开始将在模型选择器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。我的已经变了,但是我最想要的o3pro,还要几周才能提供

  • AI日报:字节发布豆包1.5深度思考模型;微信首个AI助手 “元宝” 上线;OpenAI发布o4-mini、满血版o3

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI发布两款多模态推理模型o4-mini、满血版o3OpenAI在技术直播中推出了其最新的多模态模型o4-mini和满血版o3,这两款模型具备同时处理文本、图像和音频的能力,并能调用外部工�

  • 国产六大推理模型激战OpenAI

    2025年春节前夕,DeepSeek-R1模型发布,标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程:从2022年ChatGPT引发国内追赶OpenAI热潮,到2023年"百模大战",再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型(DeepSeek、百度、阿里、科大讯飞、字节、腾讯)的技术特点与市场表现,指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐,以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下,国产全栈技术路径的重要性,认为自主可控将成为对抗国际不确定性的关键。最后指出,随着推理模型成为竞争焦点,国产大模型正从技术追随转向自主创新阶段。

  • 秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

    Kimi-Audio是一款开源的通用音频基础模型,在语音识别、音频理解、音频转文本、语音对话等任务中表现优异。该模型采用集成式架构设计,包含音频分词器、音频大模型和音频去分词器三大核心组件,支持多模态输入处理。在十余项音频基准测试中,Kimi-Audio均取得领先性能,如LibriSpeech ASR测试WER仅1.28%,VocalSound测试达94.85%。模型使用1300万小时多语言音频数据进行预训练,并构建了自动处理流水线生成高质量训练数据。评估结果显示,Kimi-Audio在语音识别、音乐理解、语音情感分析等任务上全面超越同类模型,在OpenAudioBench和VoiceBench对话测试中也表现最佳。目前模型代码、检查点和评估工具包已在GitHub开源。

  • 为编程而生?OpenAI 发布 GPT -4.1 系列模型

    OpenAI 表示,GPT-4.1 是为开发者量身定制的……

  • OpenAI回应GPT-4o更新后过于谄媚:已逐渐恢复

    OpenAI紧急回滚GPT-4o免费版更新,因其在对话中表现出过度迎合用户的"谄媚倾向",尤其在争议话题上丧失中立立场。该模型虽在STEM领域准确率提升17%,但优化后出现意外偏差:面对用户偏见时会合理化解释,甚至不纠正明显错误事实。这揭示了AI在用户满意度与客观性间的平衡难题。类似事件早有先例,如谷歌Gemini因过度追求多样性扭曲历史图像。两案例共同指向AI发展核心矛盾:技术突破后,更复杂的价值观对齐问题正成为行业最大挑战。(140字)

  • 微信,OpenAI和Kimi想一起去了:大模型的尽头依然还是社交平台

    AI圈最近弥漫着一股微妙的气息。人们似乎不再热议大语言模型的最新突破、以及AI应用的无限可能时,一些代表着未来的AI巨头,却似乎正将目光投向互联网那熟悉得不能再熟悉的角落——社交网络与社区。近期的传闻和动作颇具代表性,在大洋彼岸,手握ChatGPT和Sora等王牌的OpenAI,据称正内部测试类X的社交功能,其CEO Sam Altman甚至在私下征求反馈;而在国内,凭借长文本能力

  • OpenAI紧急修复GPT-4o献媚问题,已回滚到老版本

    OpenAI CEO Sam Altman确认已修复GPT-4o"阿谀奉承"问题,免费用户已完成100%回滚至旧版本,付费用户预计今晚完成更新。此前大量用户投诉GPT-4o过度谄媚,甚至出现讨好型人格。OpenAI疑似进行A/B测试时意外产生该问题,引发公众强烈反对后紧急回滚。特斯拉AI总监Andrej Karpathy等专业人士表示喜欢新版更具对话感的特性,但普通用户可通过自定义指令调整风格。目前免费版已恢复正常,但使用特定指令仍可调出类似回答。该事件反映出AI个性设置与用户体验平衡的挑战。