首页 > 业界 > 关键词  > Galileo最新资讯  > 正文

Galileo Lab 推出检测 AI 幻觉的新指标

2023-11-28 11:37 · 稿源:站长之家

划重点:

- Galileo Lab 的新指标可以帮助改进生成 AI 的准确性,检测 AI 幻觉问题。

- OpenAI GPT-4在基本问答任务中有大约23% 的幻觉倾向,其他模型则更差,达到60%。

- Galileo Labs 开发的新指标包括正确性和上下文一致性,可以帮助企业在其 AI 实现中测试和减轻幻觉问题。

站长之家(ChinaZ.com) 11月28日 消息:幻觉问题正在成为AI一个主要问题,因为新的 AI 工具在喷发出具有权威性的废话方面越来越出色。实际上,剑桥词典将 “幻觉” 定为2023年的年度词汇。

研究人员和供应商正在开发一系列新算法,以检测和减轻在驱动 ChatGPT 和日益用于企业应用的大型语言模型(LLMs)中出现的幻觉问题。其中一个新工具是 Galileo Labs 的新幻觉指标,它根据 LLMs 的幻觉倾向对其进行排名。

值得注意的是,OpenAI GPT-4,表现最好的模型之一,在基本问答任务中大约有23% 的幻觉倾向。其他一些模型则更差,幻觉倾向达到60%。在幕后,事情要复杂一些,并利用了新开发的度量标准,如正确性和上下文一致性。该公司还开发了工具和工作流程,以帮助企业在其自己的 AI 实现中测试和减轻这些幻觉问题。

AI机器人打游戏

图源备注:图片由AI生成,图片授权服务商Midjourney

Galileo Labs 的联合创始人兼首席执行官 Vikram Chatterji 表示,该公司将幻觉定义为生成的信息或数据在事实上是不正确的、不相关的或没有根据所提供的输入进行验证的。幻觉的性质及其如何测量取决于任务类型,这就是为什么他们按任务类型来构建了幻觉指数的原因。

例如,在需要上下文的问答场景中,LLM 必须检索正确的上下文,并根据检索到的上下文提供基于上下文的响应。使用检索增强生成等技术,可以为 LLM 提供一些相关的摘要,从而通常改进结果。然而,GPT-4在使用检索增强生成时实际上效果稍差。

在其他情况下,例如长篇文本生成,能够测试 LLM 提供的响应的真实性是很重要的。在这里,新的正确性度量标准可以识别不与任何具体文件或上下文相关的事实错误。

Chatterji 表示,他们已经确定了几个影响 LLM 幻觉倾向的因素。其中一些因素包括:

  • 任务类型:LLM 是否被要求完成特定领域或通用任务?在 LLM 被要求回答特定领域问题(例如引用公司文件并回答问题)的情况下,LLM 是否能够有效地引用和检索所需的上下文?

  • LLM 规模:LLM 被训练的参数有多少?更大并不总是意味着更好。

  • 上下文窗口:在需要检索增强生成的特定领域场景中,LLM 的上下文窗口和限制是什么?例如,加州大学伯克利分校、斯坦福大学和 Samaya AI 研究人员最近发表的一篇论文强调了 LLM 无法有效检索提供文本中间位置的信息。

Chatterji 承认还有许多其他因素需要考虑,因为幻觉是多方面的,需要细致入微的方法。为了简化检测幻觉的过程,Galileo Labs 的研究人员开发了一种新的幻觉检测方法,称为 ChainPoll。他们最近的一篇论文详细介绍了它的工作原理。

但从高层次上来看,他们声称这种方法比以前的幻觉检测技术更具成本效益,大约节约了20倍的成本。它利用了一种称为思维成本的提示工程方法,可以帮助从模型中引出具体和系统化的解释,以便用户更好地理解为什么会发生幻觉,并且这是迈向更可解释的 AI 的重要一步。

这些新工具帮助 Galileo Labs 的研究人员开发了 Hallucination Index 中使用的两个幻觉评估指标。Chatterji 认为,与竞争方法相比,这些新指标似乎在量化 LLM 输出质量方面做得更好,而且适用于常见任务类型(如聊天、摘要和生成),无论是否使用检索增强生成,同时还具有成本效益、高效和快速处理的特点。它们似乎也与人类反馈相关性较高。

需要注意的是,这些指标反映的是幻觉发生的概率,而不是幻觉的绝对度量。例如,0.70的正确性得分表示回答中有30% 的幻觉概率。关于新指标的细微之处如下:

  • 正确性:衡量给定模型回答是否准确。正确性揭示了所谓的开放领域幻觉,即不与任何具体文件或上下文相关的事实错误。正确性得分越高,回答准确的概率越高。这对于评估长篇文本生成和无检索增强的问答任务很有用。

  • 上下文一致性:上下文一致性评估模型回答与给定上下文的严格一致程度,作为衡量闭域幻觉的度量标准,即模型生成与提供给模型的上下文不一致的内容。较低的得分表示模型回答不包含在所提供的上下文中。这对于评估具有检索增强的问答任务很有用。

由于在各种任务中使用了不同的指标,因此不能进行真正的苹果对苹果的比较。例如,GPT-4在无检索增强的问答任务中的正确性得分为0.77,但在使用检索增强时的上下文一致性得分略低,为0.76。大多数其他模型在使用检索增强时改善了相关指标。

这些指标为构建 LLM 应用的团队提供了持续的反馈循环,并显著减少了启动安全可靠的 LLM 应用所需的开发时间。Chatterji 解释道:

这些指标使团队能够在开发过程中对提示、上下文、模型选择等进行迭代和测试,找到有效的组合。这些指标还允许团队在生产中评估 LLM 输出。凭借这些指标,团队可以快速识别需要额外关注的输入和输出,以及驱动这种次优行为的基础数据、上下文和提示。

企业团队已经在开发工作流程中使用这些幻觉检测指标。它们还有助于生产监控,并在输出开始下降时触发主动警报和通知。

然而,值得注意的是,这些新指标仍然是一个正在进行的工作。例如,它们与人类反馈仅有85% 的相关性。多模态 LLMs 在跨不同类型的数据(如文本、代码、图像、声音和视频)上工作时还需要更多的工作。此外,他们计划随着新的流行 LLMs 的出现而扩大列表。Chatterji 表示:

幻觉研究领域尚处于初级阶段,令人兴奋,并且有很多实验的方向。

在最近的 Open AI 事件中,首席执行官 Sam Altman 最近表示,他们在使 LLMs 减少幻觉方面可能遇到了难题。需要新的方法来发现更深层次的物理规律。

在剑桥的一次公开讨论中,Altman 说:

我们需要突破。我们可以在大型语言模型上投入很多努力,我们将继续这样做。我们可以攀登我们所在的山丘,而且山峰仍然相当遥远。但是,在合理范围内,我不认为这对于 AGI 来说是至关重要的... 如果超级智能不能发现新的物理规律,我不认为它是超级智能。而且,教它克隆人类行为和人类文本的行为 - 我不认为这样做能够实现目标。因此,这里有一个问题,该问题在该领域已经争论了很长时间,即除了语言模型之外,我们还需要做什么才能使一个系统能够发现新的物理规律,这将是我们下一个任务。

从 LLMs 的突破性发现到今天减少一些幻觉问题,已经花费了近六年的时间。随着市场上推出的大量新的 AI 专用硬件和普遍的热情,任何后续方法要达到同样的接受程度和工具化可能需要更少的时间。

与此同时,Galileo Labs 等检测和减少幻觉的工具将帮助企业更安全地利用 LLMs。

举报

  • 相关推荐
  • OpenClaw中文版Molili开放自定义大模型接入 国产AI智能体再突破

    3月5日,OpenClaw中文版Molili正式上线自定义接入大模型功能。该产品以极致自由度、全链路本土化适配与零门槛操作为特点,为个人及企业用户提供全新AI自动化解决方案,推动桌面AI智能体从“对话交互”向“落地执行”深度转型。核心亮点包括自定义大模型接入、全场景使用自由,支持企业无缝接入私有模型,个人用户可自主选择偏好模型,打破传统AI工具模型绑定限制。产品突破“重对话、轻执行”行业痛点,实现真实电脑端操作,覆盖文件处理、信息搜索等重复性任务,支持微信、钉钉等多平台远程指挥,并搭载8000+技能矩阵,全方位保障用户隐私与数据安全。

  • AI日报:OpenAI上线 GPT-5.3 Instant;通义千问负责人林俊旸宣布离职;谷歌发布 Gemini 3.1 Flash-Lite

    本期AI日报聚焦行业动态:OpenAI紧急上线GPT-5.3 Instant,重点解决“爹味说教”问题;Anthropic推出Claude Code语音编程模式,提升开发效率。马云带领阿里与蚂蚁核心层访问云谷学校,探讨AI浪潮下的教育变革。AReaL v1.0框架发布,降低智能体强化学习开发门槛。阶跃星辰开源Step3.5Flash模型,参数达1960亿。阿里通义千问负责人林俊旸离职,反映大模型人才高频流动趋势。谷歌发布Gemini

  • DeepSeek V4 Lite悄然更新:2000亿小参数性能逼近美国顶流

    虽然春节档DeepSeek V4没有发布,但DeepSeek在2月11日发了一个新模型,被称为DeepSeek V4 Lite,只有2000亿参数,规模比较小。 DeepSeek V4 Lite主要特色是1M上下文,之前网友测试其表现除了超长上下文之外也没太惊艳的地方,毕竟参数规模跟主流的大模型差很多。 然而DeepSeek V4 Lite发布之后一直在悄悄升级,2月27日已经有网友测试发现其性能越来越强大,昨天又升级了一波,Linux Do社区�

  • 小折叠大能量 用户亲述三星Galaxy Z Flip7的出色体验

    三星Galaxy Z Flip7凭借轻薄机身、时尚设计、超大外屏及创新AI功能,成为折叠屏市场焦点。机身仅13.7毫米厚、188克重,搭配绚丽配色与精致工艺。4.1英寸外屏支持丰富交互,无需展开即可完成日常操作。AI助手Bixby升级多任务处理,影像系统提供便捷自拍体验。该机在京东官方旗舰店好评率超99%,以多元化体验赢得消费者青睐。

  • AI日报:字节发布Seedream5.0Lite;小红书不标AI将限流;美图开拍首批接入Seedance 2.0大模型

    本期AI日报涵盖多项重要动态:字节跳动发布具备视觉推理与实时联网能力的图像创作模型Seedream5.0Lite;小红书要求AI生成内容须显著标识;美图工具“开拍”接入Seedance 2.0大模型以提升视频创作效率;OpenAI在ChatGPT中上线广告业务以应对成本压力;OpenAI与Cerebras合作推出专为实时编程优化的GPT-5.3-Codex-Spark;蚂蚁集团开源全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T;Google发布在编程与科研领域实现突破的Gemini 3 Deep Think;同程旅行全面接入腾讯元宝,通过AI实现秒级行程规划与预订。

  • “龙虾”狂热:ChatGPT们只是AI的后端,OpenClaw让AI真正有了前端

    Agent 这个词,AI 行业喊了至少两年。2024年起,每一场发布会都在谈 Agent,投资机构管它叫下一个万亿市场,创业公司一夜之间改了 slogan。但打开产品一看,还是一个对话框等你打字:你给指令,它给回答;你不提问,它就停在那儿。 概念跑得很快,产品形态没跟上。直到 OpenClaw 出来,这种错位才突然变得可见——不是因为它发明了什么新技术,而是它把那层一直缺失的交互前�

  • 摩尔线程自研笔记本引老外关注!首发“长江”处理器 Linux/安卓/Windows随心切换

    英伟达N1XArm芯片尚未正式推出有着中国版英伟达”之称的摩尔线程抢先布局,推出搭载自研Arm架构长江”SoC芯片的MTTAIBook算力笔记本,引发多家海外媒体关注。作为摩尔线程的全新产品,MTTAIBook的核心亮点是首发自研的长江”SoC。作为品牌首款Arm架构笔记本产品,其凭借自研芯片、亮眼的AI能力与多系统兼容的特性,成为国产企业探索该领域的代表之作,也让海外科技界对其实际表现充满期待,后续更多专业评测也将进一步展现这款产品的实际使用能力。

  • 生活万物皆可AI 三星AI神 冰箱9系打破创新边界 化身可靠家庭成员

    三星AI神+冰箱9系通过AI技术革新冰箱功能,实现食材智能识别与管理,语音交互解放双手,并优化能耗设计。它不仅是保鲜工具,更能记录家庭饮食习惯,推荐食谱,无缝融入厨房空间,成为理解用户需求的“沉默家人”。

  • 受够父母毒鸡汤的年轻人,用AI造了一个赛博嘴替

    ​毒鸡汤界终于迎来了年轻人自己的“真专家”。 最近,一个名为“老赵讲道理”的公众号迅速蹿红,仅用两个月时间就从0-1涨粉超20万,10万+爆文超9篇。 看着账号介绍中的“发表过十余篇SCI论文”,你以为这是学界大佬下凡做公众号?其实这是一位名叫“是草莓味的猫”的年轻人因为受不了父母时常转发营销号毒鸡汤,开了一个公众号专门和父母魔法对轰。

  • 单部播放破2亿!AI漫剧“狂飙”,大厂厮杀正酣

    ​2026年,短剧赛道迎来首个“漫剧春节档”。 《西游,错把玉帝当亲爹》《大小姐,你把恶魔执事调成啥了》等多部漫剧作品强势破圈,不仅创下惊人播放数据,更标志着漫剧从“小众赛道”正式走向大众视野,完成了从“陪跑”到“主角”的身份转变。 这场爆火并非偶然,背后是漫剧行业的持续迭代升级。 而百度、美团等大厂还在争相入场,漫剧赛道将迎来全新的竞争�

今日大家都在搜的词: