Galileo Lab 推出检测 AI 幻觉的新指标

2023-11-28 11:37 · 稿源：站长之家

划重点:
- Galileo Lab 的新指标可以帮助改进生成 AI 的准确性，检测 AI 幻觉问题。
- OpenAI GPT-4在基本问答任务中有大约23% 的幻觉倾向，其他模型则更差，达到60%。
- Galileo Labs 开发的新指标包括正确性和上下文一致性，可以帮助企业在其 AI 实现中测试和减轻幻觉问题。

站长之家(ChinaZ.com) 11月28日消息:幻觉问题正在成为AI一个主要问题，因为新的 AI 工具在喷发出具有权威性的废话方面越来越出色。实际上，剑桥词典将 “幻觉” 定为2023年的年度词汇。

研究人员和供应商正在开发一系列新算法，以检测和减轻在驱动 ChatGPT 和日益用于企业应用的大型语言模型（LLMs）中出现的幻觉问题。其中一个新工具是 Galileo Labs 的新幻觉指标，它根据 LLMs 的幻觉倾向对其进行排名。

值得注意的是，OpenAI GPT-4，表现最好的模型之一，在基本问答任务中大约有23% 的幻觉倾向。其他一些模型则更差，幻觉倾向达到60%。在幕后，事情要复杂一些，并利用了新开发的度量标准，如正确性和上下文一致性。该公司还开发了工具和工作流程，以帮助企业在其自己的 AI 实现中测试和减轻这些幻觉问题。

AI机器人打游戏

图源备注：图片由AI生成，图片授权服务商Midjourney

Galileo Labs 的联合创始人兼首席执行官 Vikram Chatterji 表示，该公司将幻觉定义为生成的信息或数据在事实上是不正确的、不相关的或没有根据所提供的输入进行验证的。幻觉的性质及其如何测量取决于任务类型，这就是为什么他们按任务类型来构建了幻觉指数的原因。

例如，在需要上下文的问答场景中，LLM 必须检索正确的上下文，并根据检索到的上下文提供基于上下文的响应。使用检索增强生成等技术，可以为 LLM 提供一些相关的摘要，从而通常改进结果。然而，GPT-4在使用检索增强生成时实际上效果稍差。

在其他情况下，例如长篇文本生成，能够测试 LLM 提供的响应的真实性是很重要的。在这里，新的正确性度量标准可以识别不与任何具体文件或上下文相关的事实错误。

Chatterji 表示，他们已经确定了几个影响 LLM 幻觉倾向的因素。其中一些因素包括:

任务类型:LLM 是否被要求完成特定领域或通用任务?在 LLM 被要求回答特定领域问题（例如引用公司文件并回答问题）的情况下，LLM 是否能够有效地引用和检索所需的上下文?
LLM 规模:LLM 被训练的参数有多少?更大并不总是意味着更好。
上下文窗口:在需要检索增强生成的特定领域场景中，LLM 的上下文窗口和限制是什么?例如，加州大学伯克利分校、斯坦福大学和 Samaya AI 研究人员最近发表的一篇论文强调了 LLM 无法有效检索提供文本中间位置的信息。

Chatterji 承认还有许多其他因素需要考虑，因为幻觉是多方面的，需要细致入微的方法。为了简化检测幻觉的过程，Galileo Labs 的研究人员开发了一种新的幻觉检测方法，称为 ChainPoll。他们最近的一篇论文详细介绍了它的工作原理。

但从高层次上来看，他们声称这种方法比以前的幻觉检测技术更具成本效益，大约节约了20倍的成本。它利用了一种称为思维成本的提示工程方法，可以帮助从模型中引出具体和系统化的解释，以便用户更好地理解为什么会发生幻觉，并且这是迈向更可解释的 AI 的重要一步。

这些新工具帮助 Galileo Labs 的研究人员开发了 Hallucination Index 中使用的两个幻觉评估指标。Chatterji 认为，与竞争方法相比，这些新指标似乎在量化 LLM 输出质量方面做得更好，而且适用于常见任务类型（如聊天、摘要和生成），无论是否使用检索增强生成，同时还具有成本效益、高效和快速处理的特点。它们似乎也与人类反馈相关性较高。

需要注意的是，这些指标反映的是幻觉发生的概率，而不是幻觉的绝对度量。例如，0.70的正确性得分表示回答中有30% 的幻觉概率。关于新指标的细微之处如下:

正确性:衡量给定模型回答是否准确。正确性揭示了所谓的开放领域幻觉，即不与任何具体文件或上下文相关的事实错误。正确性得分越高，回答准确的概率越高。这对于评估长篇文本生成和无检索增强的问答任务很有用。
上下文一致性:上下文一致性评估模型回答与给定上下文的严格一致程度，作为衡量闭域幻觉的度量标准，即模型生成与提供给模型的上下文不一致的内容。较低的得分表示模型回答不包含在所提供的上下文中。这对于评估具有检索增强的问答任务很有用。

由于在各种任务中使用了不同的指标，因此不能进行真正的苹果对苹果的比较。例如，GPT-4在无检索增强的问答任务中的正确性得分为0.77，但在使用检索增强时的上下文一致性得分略低，为0.76。大多数其他模型在使用检索增强时改善了相关指标。

这些指标为构建 LLM 应用的团队提供了持续的反馈循环，并显著减少了启动安全可靠的 LLM 应用所需的开发时间。Chatterji 解释道:

这些指标使团队能够在开发过程中对提示、上下文、模型选择等进行迭代和测试，找到有效的组合。这些指标还允许团队在生产中评估 LLM 输出。凭借这些指标，团队可以快速识别需要额外关注的输入和输出，以及驱动这种次优行为的基础数据、上下文和提示。

企业团队已经在开发工作流程中使用这些幻觉检测指标。它们还有助于生产监控，并在输出开始下降时触发主动警报和通知。

然而，值得注意的是，这些新指标仍然是一个正在进行的工作。例如，它们与人类反馈仅有85% 的相关性。多模态 LLMs 在跨不同类型的数据（如文本、代码、图像、声音和视频）上工作时还需要更多的工作。此外，他们计划随着新的流行 LLMs 的出现而扩大列表。Chatterji 表示:

幻觉研究领域尚处于初级阶段，令人兴奋，并且有很多实验的方向。

在最近的 Open AI 事件中，首席执行官 Sam Altman 最近表示，他们在使 LLMs 减少幻觉方面可能遇到了难题。需要新的方法来发现更深层次的物理规律。

在剑桥的一次公开讨论中，Altman 说:

我们需要突破。我们可以在大型语言模型上投入很多努力，我们将继续这样做。我们可以攀登我们所在的山丘，而且山峰仍然相当遥远。但是，在合理范围内，我不认为这对于 AGI 来说是至关重要的... 如果超级智能不能发现新的物理规律，我不认为它是超级智能。而且，教它克隆人类行为和人类文本的行为 - 我不认为这样做能够实现目标。因此，这里有一个问题，该问题在该领域已经争论了很长时间，即除了语言模型之外，我们还需要做什么才能使一个系统能够发现新的物理规律，这将是我们下一个任务。

从 LLMs 的突破性发现到今天减少一些幻觉问题，已经花费了近六年的时间。随着市场上推出的大量新的 AI 专用硬件和普遍的热情，任何后续方法要达到同样的接受程度和工具化可能需要更少的时间。

与此同时，Galileo Labs 等检测和减少幻觉的工具将帮助企业更安全地利用 LLMs。

（举报）

相关推荐

关键词：

Neuralink突破全球12例植入！微美全息（WIMI.US）构建脑机生态步入新阶段！

马斯克旗下Neuralink宣布全球已有12人植入脑机接口设备，累计使用超2000天。该公司自2024年获FDA批准后开展人体试验，计划未来六年运营五家诊所并推出三类植入设备。脑机接口技术不仅用于治疗神经疾病，还探索人机融合增强人类能力。全球市场规模预计2025年达19.5亿美元，医疗康复和消费级应用成为主要增长点。该技术正从科幻走向现实，推动精准医疗和智能交互发展。

脑机接口 Neuralink 马斯克
荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

本文介绍了AI日报栏目，聚焦AI领域最新动态。快手推出Kwali视频助手，简化视频制作流程；字节跳动发布USO模型，解决图像生成中风格与主题的矛盾；微软推出Copilot Audio音频模式，提供个性化语音交互；Stability AI升级Stable Audio 2.5，支持高质量音频生成；阿联酋推出开源大模型K2 Think，拥有320亿参数；微信上线智能回复功能，提升公众号运营效率；OpenAI推出ChatGPT开发者模式，支持AI控制外部工具；字节跳动Seed团队发布AgentGym-RL框架，提升语言模型决策能力；月之暗面开源Checkpoint Engine中间件，优化LLM推理效率；B站开源IndexTTS-2.0文本转语音系统，支持情感与时长控制；Replit推出Agent 3编程助手，自主性提升10倍。

AI视频制作快手Kwali 多Agent框架
华为FreeClip 2耳夹耳机发布：搭载自研NPU AI处理器 1299元

华为于9月24日正式发布全新FreeClip 2耳夹式耳机，售价1299元，10月14日开启预售，10月20日正式上市。耳机主打独特设计、卓越性能与丰富功能，提供丹宁蓝、摩登黑、羽纱白三色可选。充电盒采用玲珑方盒设计，体积缩小17%，耳机本体重量减轻9%至5.1克，佩戴更轻盈舒适。搭载华为自研第三代音频芯片，首款集成NPU+AI处理器，算力提升10倍，支持超澎湃双擎单元，音质与低频动力均提升100%。具备IP57级防尘抗水抗汗能力，支持左右耳自适应技术，无需区分左右耳即可佩戴。AI功能方面，支持鸿蒙AI耳边助手，可实现随唤随应、连续对话等便捷操作，并具备实时听译功能，支持中文与20种语言互译。续航方面，单耳续航达9小时，整机续航长达38小时，满足长时间使用需求。此外，耳机还支持离线查找与楼层定位功能，充电盒新增近距离星闪精准查找，50米内轻松找回耳机。

华为FreeClip2 耳夹耳机新品发布
一加Ace 6参数出炉：骁龙8 Elite+165Hz高刷屏同档唯一

一加Ace+6曝光：搭载1.5K 165Hz超高频屏幕、骁龙8+ Elite处理器，提供四种存储组合及三款配色。内置7800mAh电池，支持120W闪充，重约214g。独家配备全新一代游戏内核，首次实现CPU、GPU与NPU协同调度，通过三大技术优化，实现165帧全栈部署，芯片调度效率提升29.8%，功耗降低11.7%。预计10月与一加15同台发布。

一加Ace 6 165GHz高刷屏
荐Netflix日本十周年，如何将自己炼成IP

十年前，Netflix在日本上线时，谁也没想到会在短短十年间成为这个市场不可忽视的玩家。剧集、电影动画、纪录片、真人秀，从全球爆款到本土制作，它几乎无处不在。而到了2025年9月，这个时间点恰好是Netflix进入日本市场整整十周年。它选择在东京最繁华的涉谷中心地带，从9月5日至14日举办为期十天的线下庆典活动，把自己十年来的代表作品和未来新作浓缩成一个巨大的�

Netflix 日本市场十周年庆典
卢伟冰：小米17全球首发骁龙8 Elite Gen5

9月25日，高通公司发布全球最快移动SoC——骁龙8 Elite Gen5。该芯片采用第三代Oryon核心，配备2+6 CPU集群架构，超大核频率达4.6GHz，性能提升20%，GPU图形性能提升23%，NPU性能提升37%。小米宣布成为全球首发合作伙伴，全新小米17系列将搭载该平台，凭借卓越性能与AI技术，打造史上最强影像旗舰体验。此外，该平台首次支持专业级视频编解码器（APV），助力创作者实现专业视频制作。

骁龙8 Elite Gen5
阿联酋部长在京见证｜Klickl与Investopia开启全面战略合作

2025年9月19日，阿联酋数字金融平台Klickl与阿联酋政府支持的全球投资平台Investopia在北京签署全面战略合作协议。双方将在金融科技、数字金融基础设施、绿色能源投资、跨境支付与资本对接等重点领域展开深度合作，推动中阿经贸合作从政策沟通迈向实体产业协同。Klickl将于2026年起成为Investopia全球战略合作伙伴，共同打造区域经济联动与全球共建的新里程碑。

阿联酋数字金融中阿经贸合作数字经济
荐AI重塑经营体验：淘天为商家按下“减负键”

10月15日，2025天猫双11将正式开启，电商人即将面临一场运营大考。今年年初，淘天做了一次商家运营状况的深度调研。数据显示:淘天商家平均每天需要耗费近5小时在客服上、2小时在素材制作上，报名一场营销活动平均要耗费1小时以上。如果是双11大促这样的节点，商家的运营压力更大。 “不用说，这组数据对商家来说有些过于沉重。我觉得我们确实应该要敲敲板子了。”

电商运营双11大促商家工具
AI落地难？阿里云AI先锋新成员实战证明，对症的场景化方案才是关键

本文探讨AI技术如何通过精准定位与协同合作破解行业难题。文章指出，AI渗透速度远超传统技术，IDC预测2025年全球AI支出将达3370亿美元。以阿里云为例，其通过算力底座与通用技术链接垂直领域伙伴，提供"技术+场景"一体化方案。文中列举挖地兔、集思科技等6家企业案例，展示AI在量化投资、电商直播等场景的实际应用，强调AI落地需找准对应场景，而阿里云的技术支撑与生态协同正推动千行百业实现数字化转型。

AI渗透技术支出应用落地
AI排名监控工具实战指南:如何用GEO排名查询提升品牌AI搜索可见度

随着ChatGPT等AI搜索引擎普及，传统SEO正经历深刻变革。文章指出，超60%用户开始使用AI搜索，而AI直接给出答案而非展示链接，导致品牌面临可见度危机。为此提出GEO（生成引擎优化）概念，强调需通过专业工具监测AI排名，并推荐AIBase平台的多平台覆盖、真实场景模拟和竞品分析功能。最后给出四步优化流程：建立监测基准、分析排名差异、针对性内容优化、持续迭代，帮助品牌在AI时代建立竞争优势。

GEO AI搜索引擎 SEO变革

今日大家都在搜的词：

热文

3 天
7天

Galileo Lab 推出检测 AI 幻觉的新指标

Neuralink突破全球12例植入！微美全息（WIMI.US）构建脑机生态步入新阶段！

荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

华为FreeClip 2耳夹耳机发布：搭载自研NPU AI处理器 1299元

一加Ace 6参数出炉：骁龙8 Elite+165Hz高刷屏同档唯一

荐Netflix日本十周年，如何将自己炼成IP

卢伟冰：小米17全球首发骁龙8 Elite Gen5

阿联酋部长在京见证｜Klickl与Investopia开启全面战略合作

荐AI重塑经营体验：淘天为商家按下“减负键”

AI落地难？阿里云AI先锋新成员实战证明，对症的场景化方案才是关键

AI排名监控工具实战指南:如何用GEO排名查询提升品牌AI搜索可见度

今日大家都在搜的词：

热文

苹果iOS18.7.1正式版更新发布重要安全修复

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

罗永浩替小米说公道话：海报小字是行业陋习

腾讯QQ闪传功能上线支持单文件最大10GB传输

苹果iOS 26.0.1正式版发布：修复iPhone 17系列Wi-Fi、拍照等Bu

OPPO Find X9系列定档：10月16日发布

鸿蒙智行享界S9T上市13天大定破 15000 台

王腾小红书账号注销快手账号已被封禁抖音账号已私密视频号已

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

苹果iOS18.7.1正式版更新发布重要安全修复

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

小米17系列开售5分钟破25年国产手机首销纪录

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

罗永浩替小米说公道话：海报小字是行业陋习

iPhone调休闹钟上热搜苹果客服回应：需手动设置

站长商机