首页 > 业界 > 关键词  > 正文

AI初创公司Galileo推新工具,可解释AI大模型的幻觉现象

2023-09-20 11:23 · 稿源:站长之家

文章概要:

1. 美国AI初创公司Galileo发布新工具,帮助用户更好地理解和解释大型语言模型(LLMs)的输出,特别是幻觉现象。

2. Galileo Studio现在具备实时监测功能,允许用户评估输入和输出,提供新指标和防护措施以优化LLMs的性能。

3. Galileo还引入了"接地性"指标,用于确定模型输出是否与训练数据相关,以区分幻觉和模型输出的真实性。

站长之家(ChinaZ.com) 9月20日 消息:在人工智能领域,特定生成型人工智能模型(LLMs)产生幻觉现象的问题一直令人困惑。然而,旧金山的AI初创公司Galileo正在努力解决这一问题,并为用户提供了一系列新的监测和指标功能,以帮助他们更好地理解和解释LLMs的输出。

Galileo Studio是该公司旗下的工具,最新更新使用户不仅可以评估输入和上下文,还可以实时观察输出。这些新的监测功能使Galileo能够更好地解释为什么模型会产生特定的输出,并提供新的指标和防护措施来优化LLMs的性能。

机器人

图源备注:图片由AI生成,图片授权服务商Midjourney

Galileo的联合创始人兼CEO Vikram Chatterji在接受VentureBeat的独家采访中表示:“最近几个月的真正新功能是我们添加了实时监测,因为现在您实际上可以观察到出了什么问题。这已经成为一个端到端的产品,用于不断改进大型语言模型应用。”

LLMs通常依赖于应用程序向LLM发出API调用以获取响应。Galileo拦截了这些API调用,包括输入和生成的输出。通过拦截这些数据,Galileo能够向用户提供关于模型性能以及输出准确性的准实时信息。

当我们讨论生成的AI输出的事实准确性时,通常会涉及到幻觉现象,即生成了与事实不符的输出。Chatterji解释说,LLM实际上是在尝试预测下一个单词应该是什么,但它还有关于下一个备选单词的想法,并为所有这些不同的标记或不同的单词分配概率。

Galileo通过与模型本身连接,使其能够准确了解这些概率,然后提供额外的指标来更好地解释模型输出并理解为什么会出现特定的幻觉现象。通过提供这些见解,Galileo的目标是帮助开发人员更好地调整模型和微调以获得最佳结果。

除了幻觉问题,LLM基础应用程序提供的响应可能会引发一些问题,如不准确、不当的语言或机密信息泄露。为了解决这些问题,Galileo Studio还引入了新的"防护措施"指标。对于AI模型,防护措施是关于模型可以生成的信息、语气和语言的限制。

对于金融服务和医疗保健等领域的组织来说,存在与信息披露和语言使用相关的监管合规性问题。通过防护措施指标,Galileo用户可以设置自己的防护措施,然后监控和测量模型输出,以确保LLMs不会偏离正轨。

此外,Galileo还跟踪一项被称为"接地性"的指标,用于确定模型的输出是否符合其提供的训练数据的范围。如果一个模型在抵押贷款文件上进行训练,但提供了与这些文件完全无关的答案,Galileo可以通过接地性指标检测到这一情况。这使用户可以知道响应是否与模型的训练背景相关。

Galileo为用户提供了一套全面的指标,使他们能够更好地理解模型的输出并解释其真实性。这些指标不仅有助于发现幻觉现象,还以可视化的方式解释了模型在每个单词基础上的困惑,有助于开发人员优化模型以获得最佳结果。同时,通过防护措施和接地性指标,Galileo还帮助开发人员确保LLMs的输出不会引发问题,如不准确或不合规的响应。

举报

  • 相关推荐
  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • 如何检查你的网站是否被大模型引用?AI排名查询工具推荐

    本文探讨AI搜索时代网站流量获取新逻辑:传统SEO因Google搜索"零点击"现象失效,而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口,并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议:建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代,内容被LLM引用已成为新的流量生命线。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • 国内大模型GEO优化全攻略:免费工具教你监测品牌在文心一言、通义千问等AI平台的可见度

    AI搜索时代,品牌若未出现在AI回答中就等于"不存在"。GEO(生成引擎优化)成为新战场,核心是让AI在回答用户问题时优先引用企业内容。文章详解国内主流AI模型特点:文心一言整合百度生态、通义千问依托阿里电商数据、小众模型在垂直领域更易被引用。提出三大优化策略:内容结构化呈现、建立行业权威背书、布局高权重平台。推荐使用AIBase免费工具实时监测品牌在各大AI平台的曝光情况,通过数据驱动优化策略。

  • AI日报:HeyGen发布AI视频翻译引擎;科大讯飞推星火 X1.5;QQ浏览器推出AI+小窗

    本期AI日报聚焦多项技术突破:HeyGen推出精准唇形同步的视频翻译引擎;科大讯飞发布星火X1.5大模型,提升多语言处理能力;QQ浏览器新增AI助手浮窗;科大讯飞推出软硬一体方案,实现高噪声环境精准识别;谷歌Gemini 3 Pro预览版支持百万级上下文窗口;Comfy Cloud让Stable Diffusion实现零门槛创作;谷歌Gemini新增深度研究功能,可整合邮件生成智能报告;上海AgiBot机器人10分钟完成复杂制造任务,重塑生产效率。

  • 升级版“蓝心小V”亮相,豆包大模型助力vivo打造AI原生体验

    vivo发布全新OriginOS 6系统,升级私人助手“蓝心小V”。该系统依托蓝心大模型与豆包大模型协同,实现精准意图识别与多模态交互,支持新闻、教育、天气等场景的智能问答。通过火山引擎联网搜索及内容整合,提供低延迟、高情感语音响应。同时拓展无障碍服务,为视障用户提供实时视觉辅助。未来将持续深化AI生态建设,打造更智能便捷的原生体验。

  • AI搜索优化工具推荐!如何用免费工具帮助内容在AI搜索中抢占排名

    文章探讨AI搜索时代内容创作者面临的挑战与机遇。传统SEO优化在AI搜索中失效,2024年数据显示AI搜索流量激增350%。核心解决方案是GEO(生成式引擎优化),需关注内容权威性、结构清晰度和信息完整性。推荐免费工具AIBase,可一键查询多平台AI搜索排名,并提供具体优化建议。配合AnswerThePublic挖掘用户问题,结合Google Search Console监测流量变化。通过实际案例展示,经过三周优�

  • AI排名查询工具推荐:如何查询竞争对手在AI回答中的曝光

    AI搜索时代品牌面临新挑战:用户直接询问AI工具推荐,若品牌未被提及将流失流量。数据显示,2024年58.5%的谷歌搜索为零点击,ChatGPT日均查询超百亿次。AI推荐高度集中,平均每次仅引用2-7个品牌。建议使用专业GEO监控工具(如AIBase)追踪主流AI平台曝光情况,及时优化内容策略。核心逻辑已从“让用户搜到你”转变为“让AI推荐你”。

今日大家都在搜的词: