首页 > 业界 > 关键词  > 正文

AI初创公司Galileo推新工具,可解释AI大模型的幻觉现象

2023-09-20 11:23 · 稿源:站长之家

文章概要:

1. 美国AI初创公司Galileo发布新工具,帮助用户更好地理解和解释大型语言模型(LLMs)的输出,特别是幻觉现象。

2. Galileo Studio现在具备实时监测功能,允许用户评估输入和输出,提供新指标和防护措施以优化LLMs的性能。

3. Galileo还引入了"接地性"指标,用于确定模型输出是否与训练数据相关,以区分幻觉和模型输出的真实性。

站长之家(ChinaZ.com) 9月20日 消息:在人工智能领域,特定生成型人工智能模型(LLMs)产生幻觉现象的问题一直令人困惑。然而,旧金山的AI初创公司Galileo正在努力解决这一问题,并为用户提供了一系列新的监测和指标功能,以帮助他们更好地理解和解释LLMs的输出。

Galileo Studio是该公司旗下的工具,最新更新使用户不仅可以评估输入和上下文,还可以实时观察输出。这些新的监测功能使Galileo能够更好地解释为什么模型会产生特定的输出,并提供新的指标和防护措施来优化LLMs的性能。

机器人

图源备注:图片由AI生成,图片授权服务商Midjourney

Galileo的联合创始人兼CEO Vikram Chatterji在接受VentureBeat的独家采访中表示:“最近几个月的真正新功能是我们添加了实时监测,因为现在您实际上可以观察到出了什么问题。这已经成为一个端到端的产品,用于不断改进大型语言模型应用。”

LLMs通常依赖于应用程序向LLM发出API调用以获取响应。Galileo拦截了这些API调用,包括输入和生成的输出。通过拦截这些数据,Galileo能够向用户提供关于模型性能以及输出准确性的准实时信息。

当我们讨论生成的AI输出的事实准确性时,通常会涉及到幻觉现象,即生成了与事实不符的输出。Chatterji解释说,LLM实际上是在尝试预测下一个单词应该是什么,但它还有关于下一个备选单词的想法,并为所有这些不同的标记或不同的单词分配概率。

Galileo通过与模型本身连接,使其能够准确了解这些概率,然后提供额外的指标来更好地解释模型输出并理解为什么会出现特定的幻觉现象。通过提供这些见解,Galileo的目标是帮助开发人员更好地调整模型和微调以获得最佳结果。

除了幻觉问题,LLM基础应用程序提供的响应可能会引发一些问题,如不准确、不当的语言或机密信息泄露。为了解决这些问题,Galileo Studio还引入了新的"防护措施"指标。对于AI模型,防护措施是关于模型可以生成的信息、语气和语言的限制。

对于金融服务和医疗保健等领域的组织来说,存在与信息披露和语言使用相关的监管合规性问题。通过防护措施指标,Galileo用户可以设置自己的防护措施,然后监控和测量模型输出,以确保LLMs不会偏离正轨。

此外,Galileo还跟踪一项被称为"接地性"的指标,用于确定模型的输出是否符合其提供的训练数据的范围。如果一个模型在抵押贷款文件上进行训练,但提供了与这些文件完全无关的答案,Galileo可以通过接地性指标检测到这一情况。这使用户可以知道响应是否与模型的训练背景相关。

Galileo为用户提供了一套全面的指标,使他们能够更好地理解模型的输出并解释其真实性。这些指标不仅有助于发现幻觉现象,还以可视化的方式解释了模型在每个单词基础上的困惑,有助于开发人员优化模型以获得最佳结果。同时,通过防护措施和接地性指标,Galileo还帮助开发人员确保LLMs的输出不会引发问题,如不准确或不合规的响应。

举报

  • 相关推荐
  • 为什么说广告是AI大模型公司最现实的商业化选择?

    从ChatGPT开启订阅模式开始,业界似乎默认大模型公司的C端商业化道路就是一条——订阅制。原因似乎也说得通——推理是有成本的。在经过谷歌、Perplexity等公司的实践,OpenAI、腾讯的跃跃欲试之后,广告大概率会成为更多大模型公司商业化的现实选择。

  • AI孙悟空”会说中日英三语?讯飞星火AI大模型展项亮相大阪世博会

    4 月 13 日,主题为“构想焕发生机的未来社会”的日本大阪·关西世博会(以下简称“大阪世博会”)开幕。大阪世博会中国馆以“共同构建人与自然生命共同体——绿色发展的未来社会”为主题,携“嫦娥五号”月壤样本、“蛟龙”号体验舱等顶尖科技成果亮相,并通过大量互动装置和数字化科技、AI技术等让展品“活起来”、展项“动起来”,向全球展示生动靓丽的“中国�

  • AI 大模型的困境:数据才是真正的“燃料”

    一旦掉入AI坟场,幻觉将永远存在,噩梦才刚开始。最近有许多客户在考虑上AI大模型一体机、AI私有化、AI大模型部署等项目,但小心进入AI大模型的坟场,在光鲜亮丽的背后,AI大模型也面临着诸多困境,其中最为核心的问题便是数据。只有拥有高质量、多样化、易于管理的数据,AI大模型才能发挥出其真正的潜力,为企业带来更大的价值。

  • AI大模型+全渠道整合:容联七陌智能客服赋能制造业升级

    自《中国制造2025》战略提出以来,制造业的智能化发展进入快车道,但行业仍面临劳动力成本上升、供应链不透明、客户需求碎片化等挑战。企业亟需通过技术手段实现降本增效,而智能化客户服务成为关键突破口。与此同时,客服行业正经历颠覆性变革。传统客服依赖人工响应,存在效率低、成本高、数据割裂等痛点。随着AI大模型技术成熟,全渠道整合、智能客服机器人�

  • 斥资36亿!OpenAI考虑收购前苹果设计师AI初创公司

    据报道,OpenAI近期正就收购AI硬件初创公司ioProducts展开深入谈判,这笔潜在交易或将重塑人工智能硬件市场格局。OpenAI高层曾考虑以至少5亿美元的价格收购这家由OpenAICEO萨姆阿尔特曼与前苹果传奇设计师乔纳森艾维联合创立的公司。这笔交易或将开启AI巨头与顶尖工业设计团队强强联合的新模式,为人工智能技术的终端落地开辟全新路径。

  • DeepSeek+物流行业,AI大模型破解五大场景效能困局

    文章探讨了AI大模型在物流行业的应用现状与挑战。以DeepSeek为代表的AI技术正通过重构业务流程、优化资源配置、提升决策效率等方式,成为推动行业降本增效的核心引擎。但成功应用AI大模型需要企业具备数字化基础、业务流程标准化和数据治理能力,而非简单技术堆砌。G7+易流梳理出五大核心应用场景:工作效能辅助、经营数据分析、安全审查、智能客服和知识管理。这些

  • 迈富时AI大模型破解白酒行业三大痛点——与奇点国峰携手共建酒业智慧生态

    近日,Marketingforce迈富时与中国奇点国峰控股有限公司(以下简称“奇点国峰”)正式宣布达成 2025 年度战略合作。此次合作标志着双方将充分发挥各自在人工智能、数智化营销以及白酒产业链上的独特优势,携手构建白酒AI大模型,致力于打造酱香白酒行业数智化转型的标杆案例,为传统白酒产业的创新发展注入强大动力。在双方战略合作的推动下,Marketingforce迈富时凭借其�

  • 大模型AI基础设施,商汤的反向求解

    大模型落地如火如荼,从上一代AI浪潮中杀出来的商汤,嗅到了这里面新的机会。在最火的具身智能赛道,这两年诞生了许多明星创业公司。这些创业公司的创始人往往拥有技术明星的光环,不少都是在学术界中某个技术领域中响当当的领头人。这些初创公司虽然在某一个单点技术上遥遥领先(大脑、小脑或者本体),但在机器人落地过程中,要突破从单一技术到整体复杂产品

  • 合合信息发布“大模型加速器 2.0”,助力大模型跨越“幻觉”障碍

    近日,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,凭借其多维度升级,为降低大模型“幻觉”风险、推动大模型精准应用提供了强大助力。训练数据是影响大模型“认知能力”的关键,合合信息“大模型加速器 2.0”基于领先的智能文档处理技术,从数据源头入手,对复杂文档的版式、布局和元素进行精准解析及结构化处理,

  • AI日报:小米首个推理大模型开源Xiaomi MiMo;快手上线AI笔记工具“喵记多”;腾讯拆分AI团队

    本文汇总了AI领域最新动态:1)小米开源70亿参数大模型Xiaomi MiMo,在数学推理和代码竞赛中超越OpenAI和阿里模型;2)快手推出AI笔记工具"喵记多",简化笔记管理;3)Luma AI发布电影级镜头控制API,降低视频生成门槛;4)腾讯重组AI团队,加大语言模型研发投入;5)Anthropic为Claude引入新语音"Glassy";6)谷歌NotebookLM新增50+语言音频概述功能;7)xAI将发布Grok3.5模型;8)Meta推出独立AI助手应用挑战ChatGPT;9)OpenAI紧急修复GPT-4o"谄媚"问题;10)Mac本地AI助手Simular升级隐私保护;11)CameraBench项目帮助AI理解镜头运动;12)谷歌推出个性化语言学习AI工具。