Galileo发布Luna，重新定义GenAI评估，成本降低97%、速度提升11倍

2024-06-07 14:20 · 稿源：站长之家

划重点:
⭐ Galileo 推出 Luna，一套革命性的 Evaluation Foundation Models，重新定义企业 GenAI 评估，速度、成本和准确性均突破前所未有的境界。
⭐ Luna 的创新核心在于其专为特定评估任务设计的小型语言模型，大幅提升了速度、成本和准确性。
⭐ Luna 不仅速度更快、成本更低，还可在没有传统基准数据集的情况下运行，极大地简化了评估流程。

站长之家（ChinaZ.com）6月7日消息:企业人工智能技术领先者 Galileo 近日发布了一款名为 Luna 的全新产品，这一革命性的 Evaluation Foundation Models 套件重新定义了企业对 GenAI 系统的评估方式。Luna 承诺在速度、成本和准确性方面进行了前所未有的突破。

“Galileo 推出 Luna，旨在解决当前 GenAI 评估方法的局限性，这些方法通常速度缓慢、成本高昂，而且往往不准确。”Galileo 联合创始人兼首席执行官 Vikram Chatterji 在接受 VentureBeat 采访时表示。“推动我们开发 Luna 的初衷源自对在生产环境中进行超低延迟、成本效益高和高准确性评估的需求。”

Luna 的研发标志着 Galileo 取得了重要的里程碑，该公司自2021年初成立以来一直处于企业 GenAI 的最前沿。公司对推动人工智能评估边界的执着可从 Luna 的开发过程中窥见端倪，该过程历时近一年，进行了密集的研发工作。

Luna，Galileo 划时代的 Evaluation Foundation Models 套件，在接收器操作特征曲线下面积（AUROC）得分的基准比较中胜过了领先的人工智能评估方法。更高的 AUROC 值达到了0.78，表明 Luna 在评估企业生成式人工智能系统的准确性方面更胜一筹，超越了 GPT-3.5、Trulens Groundedness 和 RAGAS Faithfulness 等竞争对手。

Luna 创新的核心在于其专为特定评估任务设计的小型语言模型，精心为幻觉检测、语境质量评估、数据泄漏防护和恶意提示识别等任务量身定制。这种专业设计使得 Luna 在速度、成本和准确性三个关键指标上表现卓越。

“Luna 通过几项创新的方式超越了 GPT-3.5在速度、成本和准确性方面，”Chatterji 解释道。“Luna 利用专为特定评估任务量身定制的小型语言模型，大大降低了计算开销和成本。这种设计选择使得评估的成本比使用 GPT-3.5低97%，速度则比使用 GPT-3.5快11倍。”

然而，这并不仅仅是关于速度和成本。Luna 还以行业领先的准确性脱颖而出，在检测幻觉、提示注入、个人可识别信息（PII）等方面，其性能比以往方法高出多达20%。“多头小型语言模型和智能分块等先进技术确保 Luna 模型更好地保持上下文并提供更准确的评估，”Chatterji 补充道。

在对评估100万次查询的月度成本进行比较时，Galileo 的 Luna 大幅低于其他方法，仅需每月175美元。Luna 的专为特定评估任务设计的小型语言模型实现了超低成本的评估，使其比 GPT-3.5（每月6248美元）、RAGAS Faithfulness(每月7994美元)和 Trulens Groundedness(每月16641美元)等替代方案高效率低至97%。

Luna 最引人注目的一个方面是其能够在不需要传统基准数据集的情况下运行。通过利用在多样、领域特定数据集上微调的预训练评估模型，Luna 消除了创建定制测试集的耗时和昂贵过程。这一创新简化了评估流程，减少了对大量人工生成数据的依赖。

Luna 的潜在应用广泛，Chatterji 强调了它在需要人工智能评估具有高可靠性和速度的行业中的相关性。“Luna 在需要大规模应用、吞吐量大的企业应用中尤为强大（比如每月数百万次查询）。我们发现在医疗保健、金融和电信等行业，财富100强企业特别喜欢使用 Luna。” 他说道。

Galileo 的 Luna 在人工智能评估方面提供了无与伦比的速度，处理单个查询的延迟仅为0.232秒。这较之其他方法，例如 GPT-3.5的2.5秒、Galileo Chainpoll 的3.0秒、Trulens Groundedness 的3.4秒和 RAGAS Faithfulness 的5.4秒，有了显著提升。Luna 的专为特定评估任务设计的小型语言模型实现了超低延迟的评估，使其比竞争方法快至多达11倍。

用例涵盖了对人工智能输出的实时监控、检测人工智能生成内容中的幻觉，以确保聊天机器人交互的安全性和质量。通过 Galileo 的 Fine Tune 产品，Luna 可定制以满足特定客户需求，为制药和金融服务等行业的关键任务实现95% 以上的准确性。

随着生成式人工智能领域的快速发展，Galileo 致力于保持创新的最前沿。Chatterji 强调，Luna 将在三个关键方面扩展规模:扩大对更多评估任务类型的支持、持续提高准确性，以及进一步降低成本和延迟。

“Galileo 致力于突破人工智能评估的可能边界，帮助组织将可信赖的人工智能引入生产环境，激发消费者的信心和信任。”Chatterji 表示。“随着生成式人工智能领域的不断演进，Galileo 将继续致力于为客户提供尖端的评估能力，使人工智能在业务部署中变得实用，并在消费者中产生信心和信任。”

随着 Luna 的推出，Galileo 在企业 GenAI 评估领域巩固了其领先地位。随着越来越多的组织寻求利用生成式人工智能的力量，Luna 提供快速、成本效益高和准确的评估能力将成为推动广泛采用和释放这一变革性技术全部潜力的关键因素。

官方博客:https://www.rungalileo.io/blog/introducing-galileo-luna-a-family-of-evaluation-foundation-models

（举报）

相关推荐

关键词：

荐OpenAI也来了，巨头为何决战AI浏览器？

AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas，这是OpenAI推出的首款人工智能驱动的网页浏览器。这也被外界认为OpenAI要向谷歌宣战，挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天，谷歌母公司Alphabet股价应声下挫，盘中最大跌幅接近5%，足见市场对这一新品的敏感度。近一年来，AI浏览器的战略价值成为行业共识，从业者更是将其与智能代理（Agent）、搜索引�

AI浏览器 ChatGPT Atlas
荐AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将推Nano Banana2

本期AI日报聚焦多领域突破：OpenAI视频应用Sora登陆安卓平台并引入付费角色功能；网易云音乐推出AI调音大师实现智能音效适配；字节跳动高薪布局人形机器人赛道；谷歌Gemini平台将升级图像生成技术；llama.cpp实现多模态革命；特斯拉秘密实验室通过行为数据训练机器人；上海首例AI著作权案宣判保护原创；微软推出自研图像生成器MAI-Image-1，在创意效率与质量间取得平衡。

OpenAI Sora Android
机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM，实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用，通过统一“视频流+文本指令→动作轨迹”范式，融合800万条跨任务导航数据，在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施，为规模化商业落地奠定关键基础。

机器狗导航大模型 TrackVLA
广东夫妻像双胞胎网友建议查下DNA：当事人称刚认识时并不像

近日，广东一对夫妇在社交媒体上迅速走红，原因竟是他们长得极为相像，仿佛是“复制粘贴”出来的一般，不少网友惊叹:“这才是真夫妻相”“简直是双胞胎”，甚至有人打趣道:“远远看还以为是一对双胞胎出门，走近了才发现是夫妻俩!” 妻子梁女士透露，她和丈夫是通过相亲认识的，起初就有不少人指出他们俩长得很像。随着两年共同生活的时光过去，两人竟愈发相

夫妻相相似吸引择偶偏好
有AI就有无限可能，灰豚AI发布新一代GEO系统

11月1日，灰豚AI发布新一代GEO系统，突破传统仅支持文本内容优化的局限，全面支持国内短视频平台作品优化，实现近乎零算力成本。该技术被视作行业重大创新，是当前国内GEO源头厂商的重要突破。系统通过AI训练提升企业在生成式搜索中的品牌影响力，助力企业获得竞争优势。未来电商将从平台化转向AI化，灰豚GEO系统支持多种合作模式，让企业以业务增长为导向，抢占AI市场先机。

灰豚AI GEO系统短视频优化
国内首个！火山引擎推出融合国家级智库理论与大规模实战验证的 Data Agent 评测体系

火山引擎推出国内首个融合国家智库理论框架与大规模实战验证的数据智能体评测体系，同步发布《2025数据智能体实践指南》。该体系直面传统评测重技术轻业务、预设答案难适配动态场景、局部能力检验不足三大痛点，确立业务关联性、可操作性与前瞻性设计原则。覆盖分析洞察、可视化呈现、鲁棒性三大核心维度，通过151道测试题量化智能体能力并划分达标/工业可用/专业研究三级标准。采用标准化闭环流程与自动化评分机制，为数字化转型深水区企业提供选型优化依据，推动产业智能化进入精准量化新阶段。

数据智能体评测体系多模态数据
数巅完成数亿元pre-A轮融资，领跑企业级AI Agent赛道

北京数巅科技完成数亿元Pre-A轮融资，由济和创投与赛富基金领投。资金将用于产品研发、国内市场深耕及国际市场拓展，强化其Data Agent技术在行业落地方面的领先优势。数巅推出企业级Data Agent解决方案，通过模块化架构整合海量行业知识与企业数据，精准识别用户需求，实现秒级响应与深度推理，满足企业数据分析、智能报告生成及业务决策等需求。该方案已在多家央国企及金融机构落地，查数准确率超99%，成为国内企业级智能体应用的重要里程碑。

融资 AI Agent
蝉妈妈AI新品震撼发布：电商营销Agent时代来临，6万+从业者共寻增长新引擎

2025年电商竞争核心转向AI效率。蝉妈妈于10月23日发布电商专属AI工具，旨在解决传统运营痛点。该工具覆盖全链路场景：从行业分析、竞对数据到图文创作、视频脚本生成，帮助从业者实现策略制定到落地执行的一站式智能运营。发布会集结多位实战专家，分享全域增长、内容提效等可复用的方法论，吸引超6万观众。蝉妈妈凭借行业数据沉淀与AI技术结合，为电商从业者提供突破增长瓶颈的系统路径，推动行业迈向技术驱动的高效新纪元。

AI电商电商增长数据分析
GEO品牌监控:让AI搜索结果优先推荐你

2025年AI搜索崛起，品牌曝光逻辑被彻底改写。传统SEO优化网页排名，现在需通过GEO（生成引擎优化）让AI模型主动推荐品牌。AI回答决定爆款命运，若未被提及则在新搜索中"隐形"。AIBase推出的GEO品牌监控工具，帮助品牌重塑在AI搜索中的可见性，提供全平台曝光监测、竞品对比及优化建议，让品牌从被动等待转为主动引导，成为AI首选推荐。

AI搜索品牌曝光 GEO
零一万物联合开源中国推出OAK平台，目标打造Agent世界的“生态适配器”

在GOT C 2025全球开源技术峰会上，零一万物CEO李开复博士发表演讲，强调开源模型是构建AI Agent的最佳选择。零一万物与开源中国联合发布一站式AI Agent开源开发平台OAK，支持对接多种开源大模型，旨在打破生态绑定限制，助力开发者实现“Agent开发自由”。该平台具备可视化编排、评估优化、数据管理等功能，未来将逐步推出四大核心模块，推动开放协作的AI Agent生态发展。

开源生态 AI Agent

今日大家都在搜的词：

热文

3 天
7天

Galileo发布Luna，重新定义GenAI评估，成本降低97%、速度提升11倍

荐OpenAI也来了，巨头为何决战AI浏览器？

荐AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将推Nano Banana2

机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

广东夫妻像双胞胎网友建议查下DNA：当事人称刚认识时并不像

有AI就有无限可能，灰豚AI发布新一代GEO系统

国内首个！火山引擎推出融合国家级智库理论与大规模实战验证的 Data Agent 评测体系

数巅完成数亿元pre-A轮融资，领跑企业级AI Agent赛道

蝉妈妈AI新品震撼发布：电商营销Agent时代来临，6万+从业者共寻增长新引擎

GEO品牌监控:让AI搜索结果优先推荐你

零一万物联合开源中国推出OAK平台，目标打造Agent世界的“生态适配器”

今日大家都在搜的词：

热文

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

马斯克称若发现外星人证据就公开

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

鸿蒙智行新款享界S9官宣11月7日开订

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

B站回应拉黑指定用户可屏蔽开屏广告：不实信息

问界M7提车关爱计划发布：等车超10周最高可补贴10000元

小米智能门锁M40 Pro发布：售价3229元起 33D人脸+掌静脉

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

阿里回应饿了么更名：正处于灰度测试阶段

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

马斯克称若发现外星人证据就公开

何小鹏：小鹏X9超级增程是全球续航最长的大七座车

卢伟冰评Air手机：大胆创新但极致薄牺牲用户体验

站长商机