最近,OpenAI 推出了其最新的 o3和 o4-mini AI 模型,这些模型在许多方面都达到了尖端水平。然而,新的模型在 “幻觉” 问题上却并没有改善,反而幻觉现象比 OpenAI 之前的多个模型更为严重。
所谓 “幻觉”,是指 AI 模型会错误地生成虚假信息,这是当今最棘手的 AI 问题之一。以往每一代新模型在减少幻觉方面都有所改善 o3和 o4-mini 却打破了这一规律。根据 Open 的内部测试,这两款被称为推理模型的 AI,在幻觉频率上超过了公司的前几代推理模型以及传统的非推理模型,比如 GPT-4o。
图源备注:图片由AI生成,图片授权服务商Midjourney
OpenAI 在其技术报告中指出,o3模型在 PersonQA 基准测试中的幻觉率高达33%,这是之前 o1和 o3-mini 模型幻觉率的两倍,后者分别为16% 和14.8%。而 o4-mini 在 PersonQA 中的幻觉率甚至达到了48%,显示出更为严重的问题。
第三方测试机构 Transluce 也发现,o3模型在回答问题时常常编造自己所采取的行动。例如,o3声称自己在2021年的 MacBook Pro 上运行了代码,然后把结果复制到答案中,尽管它并不能这么做。
Transluce 的研究人员表示,o 系列模型所采用的强化学习方法可能会放大一些原本可以通过常规后期训练流程缓解的问题。此现象让 o3的实用性大打折扣。一位斯坦福大学的兼职教授在测试 o3的编程工作流时发现,o3会生成一些无效的网站链接,影响了使用体验。
虽然幻觉现象可以在某种程度上促进模型的创造性思维,但在对准确性要求极高的行业,如法律领域,模型频繁的事实错误将导致很大的问题。
提升模型准确性的一种有效方法是给予它们网络搜索能力。OpenAI 的 GPT-4o 通过网络搜索在 SimpleQA 基准测试中达到了90% 的准确率,因此搜索功能有可能改善推理模型的幻觉现象。
然而,如果推理模型的幻觉问题随着规模的扩大而不断恶化,那么找到解决方案的紧迫性将会加大。OpenAI 方面表示,正在持续进行研究,以提高其所有模型的准确性和可靠性。
在过去一年中,AI 行业已转向关注推理模型,因为改善传统 AI 模型的技术已经出现了收益递减的趋势。然而,推理模型的出现似乎也带来了更多的幻觉现象,这为未来的发展带来了新的挑战。
划重点:
🌟 OpenAI 的新推理模型 o3和 o4-mini 幻觉频率比以往更高。
🤖 o3在 PersonQA 基准测试中幻觉率达到33%,而 o4-mini 则高达48%。
🔍 提升模型准确性的潜在方法是引入网络搜索功能,以降低幻觉现象。