首页 > AI头条  > 正文

OpenAI新推AI模型o3幻觉现象加剧,精准性令人担忧

2025-04-22 09:23 · 来源: AIbase基地

最近,OpenAI 推出了其最新的 o3和 o4-mini AI 模型,这些模型在许多方面都达到了尖端水平。然而,新的模型在 “幻觉” 问题上却并没有改善,反而幻觉现象比 OpenAI 之前的多个模型更为严重。

所谓 “幻觉”,是指 AI 模型会错误地生成虚假信息,这是当今最棘手的 AI 问题之一。以往每一代新模型在减少幻觉方面都有所改善 o3和 o4-mini 却打破了这一规律。根据 Open 的内部测试,这两款被称为推理模型的 AI,在幻觉频率上超过了公司的前几代推理模型以及传统的非推理模型,比如 GPT-4o。

OpenAI

图源备注:图片由AI生成,图片授权服务商Midjourney

OpenAI 在其技术报告中指出,o3模型在 PersonQA 基准测试中的幻觉率高达33%,这是之前 o1和 o3-mini 模型幻觉率的两倍,后者分别为16% 和14.8%。而 o4-mini 在 PersonQA 中的幻觉率甚至达到了48%,显示出更为严重的问题。

第三方测试机构 Transluce 也发现,o3模型在回答问题时常常编造自己所采取的行动。例如,o3声称自己在2021年的 MacBook Pro 上运行了代码,然后把结果复制到答案中,尽管它并不能这么做。

Transluce 的研究人员表示,o 系列模型所采用的强化学习方法可能会放大一些原本可以通过常规后期训练流程缓解的问题。此现象让 o3的实用性大打折扣。一位斯坦福大学的兼职教授在测试 o3的编程工作流时发现,o3会生成一些无效的网站链接,影响了使用体验。

虽然幻觉现象可以在某种程度上促进模型的创造性思维,但在对准确性要求极高的行业,如法律领域,模型频繁的事实错误将导致很大的问题。

提升模型准确性的一种有效方法是给予它们网络搜索能力。OpenAI 的 GPT-4o 通过网络搜索在 SimpleQA 基准测试中达到了90% 的准确率,因此搜索功能有可能改善推理模型的幻觉现象。

然而,如果推理模型的幻觉问题随着规模的扩大而不断恶化,那么找到解决方案的紧迫性将会加大。OpenAI 方面表示,正在持续进行研究,以提高其所有模型的准确性和可靠性。

在过去一年中,AI 行业已转向关注推理模型,因为改善传统 AI 模型的技术已经出现了收益递减的趋势。然而,推理模型的出现似乎也带来了更多的幻觉现象,这为未来的发展带来了新的挑战。

划重点:  

🌟 OpenAI 的新推理模型 o3和 o4-mini 幻觉频率比以往更高。  

🤖 o3在 PersonQA 基准测试中幻觉率达到33%,而 o4-mini 则高达48%。  

🔍 提升模型准确性的潜在方法是引入网络搜索功能,以降低幻觉现象。

  • 相关推荐
  • OpenAI发布o3o4 mini模型,实现“看图说话”,糊图也行!

    从 GPT-5 开始,推理模型和非推理模型很有可能会整合在一起……

  • o3模型基准测试分数仅为10%,远低于OpenAI宣传的25%

    OpenAI的新AI模型o3在第一方和第三方基准测试中存在差异,引发公众对其透明度和测试实践的质疑。去年12月,o3首次亮相时声称能解答超过25%的FrontierMath问题,但实际正确率仅为2%。内部测试发现,o3能达到超过25%的准确率,但其使用的计算资源比上周OpenAI推出的模型多得多。Epoch AI发布的独立基准测试结果显示,o3的得分约为10%,远低于OpenAI宣称的25%。尽管如此,这并不意味着OpenAI的说法有误,可能是因为OpenAI使用了更强大的内部架构进行评估,并采用了更多计算资源。此外,Epoch指出其测试设置可能与OpenAI不同,并且在评估中使用了更新版本的FrontierMath。

  • 首次实现图像思考 OpenAI重磅发布o3/o4-mini:史上最强、最智能模型

    快科技4月17日消息,今日,OpenAI新款AI模型o3、o4-mini重磅发布,这是OpenAI迄今最强、最智能的模型。据了解,OpenAI o3/o4-mini首次具备真正的视觉推理能力,看图识图已经是小菜一碟了,现在还会看图思考。OpenAI o3/o4-mini能同时处理文本、图像和音频,并且能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式。通过强化学习,OpenAI训练了o3/o4-mini如何�

  • OpenAI深夜上线o3满血版和o4 mini - 依旧领先。

    晚上1点,OpenAI的直播如约而至。其实在预告的时候,几乎已经等于明示了。没有废话,今天发布的就是o3和o4-mini。但是奥特曼这个老骗子,之前明明说o3不打算单独发布要融到GPT-5里面一起发,结果今天又发了。。。ChatGPT Plus、Pro和Team用户从今天开始将在模型选择器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。我的已经变了,但是我最想要的o3pro,还要几周才能提供

  • AI日报:字节发布豆包1.5深度思考模型;微信首个AI助手 “元宝” 上线;OpenAI发布o4-mini、满血版o3

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI发布两款多模态推理模型o4-mini、满血版o3OpenAI在技术直播中推出了其最新的多模态模型o4-mini和满血版o3,这两款模型具备同时处理文本、图像和音频的能力,并能调用外部工�

  • 媲美OpenAI-o3,刚刚开源模型DeepCoder,训练方法、数据集大公开

    今天凌晨4点,著名大模型训练平台TogetherAI和智能体平台Agentica,联合开源了新模型DeepCoder-14B-Preview。该模型只有140亿参数,但在知名代码测试平台LiveCodeBench的测试分为60.6%,高于OpenAI的o1模型,略低于o3-mini。TogetherAI刚获得3.05亿美元的B轮融资,其估值也从去年的12.5亿美元翻倍至33亿美元。

  • 被吉卜力刷屏的背后:OpenAI模型行为负责人揭秘GPT-4o新生成策略

    为什么我们会被吉卜力刷屏?原来是OpenAI故意放宽限制。OpenAI革新的GPT-4o图像功能给大家带来了不少乐趣,各路社交媒体都被「吉卜力」风格的图像、视频刷了屏。如果你有更合理的猜想,欢迎在评论区留言。

  • 国产六大推理模型激战OpenAI

    2025年春节前夕,DeepSeek-R1模型发布,标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程:从2022年ChatGPT引发国内追赶OpenAI热潮,到2023年"百模大战",再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型(DeepSeek、百度、阿里、科大讯飞、字节、腾讯)的技术特点与市场表现,指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐,以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下,国产全栈技术路径的重要性,认为自主可控将成为对抗国际不确定性的关键。最后指出,随着推理模型成为竞争焦点,国产大模型正从技术追随转向自主创新阶段。

  • AI日报:OpenAI新图像生成模型可一句话P图;可灵AI营收超1亿;谷歌上线最强推理大模型Gemini 2.5

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI推出全新图像生成模型,挑战Google一句话P图OpenAI最近推出了其最新的GPT-4o模型,集成了先进的图像生成器,展现出显著的图像渲染能力和多样的输入输出支持。宝马的360度全链AI战略将优化生产流程,为智能汽车制造提供保障,计划在2026年量产新车型,赋能AI智能个人助理,带来自然流畅的用户互动体验。

  • 为编程而生?OpenAI 发布 GPT -4.1 系列模型

    OpenAI 表示,GPT-4.1 是为开发者量身定制的……

今日大家都在搜的词: