首页 > 业界 > 关键词  > Luna最新资讯  > 正文

Galileo发布Luna,重新定义GenAI评估,成本降低97%、速度提升11倍

2024-06-07 14:20 · 稿源:站长之家

划重点:

⭐ Galileo 推出 Luna,一套革命性的 Evaluation Foundation Models,重新定义企业 GenAI 评估,速度、成本和准确性均突破前所未有的境界。

⭐ Luna 的创新核心在于其专为特定评估任务设计的小型语言模型,大幅提升了速度、成本和准确性。

⭐ Luna 不仅速度更快、成本更低,还可在没有传统基准数据集的情况下运行,极大地简化了评估流程。

站长之家(ChinaZ.com)6月7日 消息:企业人工智能技术领先者 Galileo 近日发布了一款名为 Luna 的全新产品,这一革命性的 Evaluation Foundation Models 套件重新定义了企业对 GenAI 系统的评估方式。Luna 承诺在速度、成本和准确性方面进行了前所未有的突破。

“Galileo 推出 Luna,旨在解决当前 GenAI 评估方法的局限性,这些方法通常速度缓慢、成本高昂,而且往往不准确。”Galileo 联合创始人兼首席执行官 Vikram Chatterji 在接受 VentureBeat 采访时表示。“推动我们开发 Luna 的初衷源自对在生产环境中进行超低延迟、成本效益高和高准确性评估的需求。”

image.png

Luna 的研发标志着 Galileo 取得了重要的里程碑,该公司自2021年初成立以来一直处于企业 GenAI 的最前沿。公司对推动人工智能评估边界的执着可从 Luna 的开发过程中窥见端倪,该过程历时近一年,进行了密集的研发工作。

Luna,Galileo 划时代的 Evaluation Foundation Models 套件,在接收器操作特征曲线下面积(AUROC)得分的基准比较中胜过了领先的人工智能评估方法。更高的 AUROC 值达到了0.78,表明 Luna 在评估企业生成式人工智能系统的准确性方面更胜一筹,超越了 GPT-3.5、Trulens Groundedness 和 RAGAS Faithfulness 等竞争对手。

Luna 创新的核心在于其专为特定评估任务设计的小型语言模型,精心为幻觉检测、语境质量评估、数据泄漏防护和恶意提示识别等任务量身定制。这种专业设计使得 Luna 在速度、成本和准确性三个关键指标上表现卓越。

“Luna 通过几项创新的方式超越了 GPT-3.5在速度、成本和准确性方面,”Chatterji 解释道。“Luna 利用专为特定评估任务量身定制的小型语言模型,大大降低了计算开销和成本。这种设计选择使得评估的成本比使用 GPT-3.5低97%,速度则比使用 GPT-3.5快11倍。”

image.png

然而,这并不仅仅是关于速度和成本。Luna 还以行业领先的准确性脱颖而出,在检测幻觉、提示注入、个人可识别信息(PII)等方面,其性能比以往方法高出多达20%。“多头小型语言模型和智能分块等先进技术确保 Luna 模型更好地保持上下文并提供更准确的评估,”Chatterji 补充道。

在对评估100万次查询的月度成本进行比较时,Galileo 的 Luna 大幅低于其他方法,仅需每月175美元。Luna 的专为特定评估任务设计的小型语言模型实现了超低成本的评估,使其比 GPT-3.5(每月6248美元)、RAGAS Faithfulness(每月7994美元)和 Trulens Groundedness(每月16641美元)等替代方案高效率低至97%。

image.png

Luna 最引人注目的一个方面是其能够在不需要传统基准数据集的情况下运行。通过利用在多样、领域特定数据集上微调的预训练评估模型,Luna 消除了创建定制测试集的耗时和昂贵过程。这一创新简化了评估流程,减少了对大量人工生成数据的依赖。

Luna 的潜在应用广泛,Chatterji 强调了它在需要人工智能评估具有高可靠性和速度的行业中的相关性。“Luna 在需要大规模应用、吞吐量大的企业应用中尤为强大(比如每月数百万次查询)。我们发现在医疗保健、金融和电信等行业,财富100强企业特别喜欢使用 Luna。” 他说道。

Galileo 的 Luna 在人工智能评估方面提供了无与伦比的速度,处理单个查询的延迟仅为0.232秒。这较之其他方法,例如 GPT-3.5的2.5秒、Galileo Chainpoll 的3.0秒、Trulens Groundedness 的3.4秒和 RAGAS Faithfulness 的5.4秒,有了显著提升。Luna 的专为特定评估任务设计的小型语言模型实现了超低延迟的评估,使其比竞争方法快至多达11倍。

image.png

用例涵盖了对人工智能输出的实时监控、检测人工智能生成内容中的幻觉,以确保聊天机器人交互的安全性和质量。通过 Galileo 的 Fine Tune 产品,Luna 可定制以满足特定客户需求,为制药和金融服务等行业的关键任务实现95% 以上的准确性。

随着生成式人工智能领域的快速发展,Galileo 致力于保持创新的最前沿。Chatterji 强调,Luna 将在三个关键方面扩展规模:扩大对更多评估任务类型的支持、持续提高准确性,以及进一步降低成本和延迟。

“Galileo 致力于突破人工智能评估的可能边界,帮助组织将可信赖的人工智能引入生产环境,激发消费者的信心和信任。”Chatterji 表示。“随着生成式人工智能领域的不断演进,Galileo 将继续致力于为客户提供尖端的评估能力,使人工智能在业务部署中变得实用,并在消费者中产生信心和信任。”

随着 Luna 的推出,Galileo 在企业 GenAI 评估领域巩固了其领先地位。随着越来越多的组织寻求利用生成式人工智能的力量,Luna 提供快速、成本效益高和准确的评估能力将成为推动广泛采用和释放这一变革性技术全部潜力的关键因素。

官方博客:https://www.rungalileo.io/blog/introducing-galileo-luna-a-family-of-evaluation-foundation-models

举报

  • 相关推荐
  • 铠侠业绩创新高!2026年NAND闪存产能已被预订一空

    铠侠近日公布2025财年第三财季财报,合并营收达5436亿日元,环比增长21.3%,同比增长20.8%;净利润录得895亿日元,环比大增114.9%,同比增长17.3%,利润率为16.5%。强劲的人工智能需求推动了智能设备及SSD等存储领域的销售表现,创下历史新高。公司正在考虑将额外成本转嫁给客户的可能性,同时通过严格的成本控制措施,减轻DRAM价格上涨对SSD业务的影响。

  • 双奖背后的基石:USANA葆婴以诚信铸就健康品牌信赖

    近日,USANA葆婴凭借卓越的综合表现,荣获北京经济技术开发区授予的“统计诚信示范企业”称号。这一荣誉是对其二十余年深耕中国市场、将“诚信”价值观融入企业血脉的肯定。该评选由政府主导,围绕生产经营、质量控制、依法纳税、劳动权益保障及环境保护等多维度进行系统性、高标准评估。USANA葆婴的脱颖而出,标志着其在合规经营、稳健发展与社会责任履行方面已达到区域标杆水平。这既是对企业综合实力的权威认可,也彰显了其长期坚守诚信理念的承诺。未来,USANA葆婴将继续以此为标准严格自律,将诚信基因深植于每一个运营环节,成为抵御市场风浪的“压舱石”和赢得消费者信赖的“金名片”。

  • 激活沉睡文档,迈向知识资产时代,博库致连AI文档管理一体机破解传统NAS困局

    博库致连AI文档管理一体机打破传统NAS“只存不用、低效检索”局限,以“存储+AI+办公”深度融合,为企业打造更懂需求的文档管理新选择。它从单纯存储升级为智能管理,AI自动分类、构建知识库,实现“即传即管”;支持全文语义检索,摆脱关键词束缚,秒级精准定位;集成AI问答、一键生成报告/PPT、会议管理、多语言互译等办公功能,覆盖学习、创作、协作全场景;搭载国产化硬件与系统,数据100%本地部署,确保安全可靠。该一体机不仅是更安全的存储设备,更是助力企业提效、降本、挖掘文档价值的智能办公伙伴。

  • 声网联合美团、xbench 发布 AI 外呼智能体评测基准:VoiceAgentEval

    随着生成式AI在客服领域的快速渗透,AI外呼已从最初的辅助沟通工具进化为企业优化客户沟通、提升运营效率的关键环节,应用场景覆盖招聘、销售、客服等,并成为生成式AI最广泛应用场景之一。同时,随着对话式AI技术的不断成熟,AI外呼正从“能通话”向“会沟通、懂需求”的专家级交互升级。为全面客观评估模型在AI外呼中的综合性能,声网联合美团、xBench共同推出用于评估大模型在AI外呼场景性能表现的综合评测标准VoiceAgentEval,旨在填补行业空白,让从业者更清晰地了解在真实AI外呼业务场景中各个大模型的综合性能表现,并为AI外呼场景的落地与技术体验的优化提供核心参考依据。

  • 3D领域的NanoBanana也来了,万物皆可用嘴操控。

    本文介绍了AI驱动的3D建模工具Hyper3D,其核心功能是支持通过文本提示对现有3D模型进行局部编辑。用户可上传任意第三方模型(如OBJ、FBX格式),通过简单的文字指令(如“将斧头改成大剑”)即可完成修改,而无需重新生成整个模型。这种“局部、可控、可回滚的增量修改”方式,能保留模型的骨骼绑定、动画等原有资产属性,解决了传统3D工作流中修改复杂、一致性难保�

  • ChatGPT周活跃用户已超8亿!OpenAI即将推出升级版聊天模型

    近日,OpenAI首席执行官奥尔特曼正向员工和投资者表示,公司的发展势头依旧向好。 一份内部Slack通讯消息显示,奥尔特曼于上周五向OpenAI员工透露,ChatGPT月度增长率重回10%以上。 ChatGPT的周活跃用户虽然已超8亿,但谷歌和Anthropic的市场份额正持续提升。 他还表示,OpenAI还将推出一款升级后的聊天模型”。

  • 奥思维AI Agent解决方案,赋能OPC开源创新

    1月30日,开放原子“园区行”(苏州站)暨OPC开源对接会在苏州人工智能产业园举办。本次活动聚焦开源技术与实体经济融合,汇聚政产学研及企业代表,共探产业数字化转型新路径。奥思维受邀参会,并带来《AI Agen在制造业落地实践的最后一公里》主题演讲,成为现场制造业AI落地的核心分享亮点。活动中,开放原子开源基金会业务发展部部长付海巍介绍到:基金会已成功孵�

  • 2026年GEO优化服务商综合实力榜:PureblueAI清蓝引领AI营销新范式

    文章指出,到2026年,超60%的企业将把生成式引擎优化(GEO)纳入其核心数字营销战略。品牌在AI对话、智能搜索等场景中的“被推荐率”与“内容权威性”将直接影响其获客效率与市场认知。面对众多GEO服务商,企业需精准识别技术实力与商业价值兼备的合作伙伴。文章基于技术代差、商业效能、行业适配三大维度,对主流服务商进行深度测评与实力排行,旨在为企业提供决策参考。其中,PureblueAI(清蓝)凭借其全栈技术代差、可验证的全链路服务能力及行业权威资质,在测评中位列榜首,被视为技术驱动型企业的首选战略伙伴。

  • 范式官宣2026战略升维:以“AI Agent + 世界模型”为核 构建“AI + X”产业新生态

    1月30日,范式集团年会在北京举行。创始人戴文渊正式宣布,集团已完成品牌体系与战略架构的全面升级。范式确立了以“AI Agent + 世界模型”为核心的技术路线,开启“AI + X”的产业新生态。自2014年成立以来,范式坚持“AI for Everyone”的使命,始终致力于将AI的红利惠及每一个人,在金融、制造、能源等20多个领域积累了十多年的经验。2025年,公司完成集团化转型,在延续“

  • 2026智能客服技术演进与选型指南:从AI Agent到全链路服务重构

    文章探讨了AI+Agent驱动的智能客服发展趋势。根据Gartner报告,超92%企业已在核心业务中部署AI+Agent。全球智能客服市场规模预计突破1500亿元,年复合增长率超35%。技术架构呈现三大演进方向:大模型融合架构、全链路自动化引擎、云原生弹性架构。文章对比了2026年主流技术方案,包括全链路AI+Agent型(如羚羊Quick Service)、垂直领域深度优化型(如网易七鱼、晓多科技)及跨国合规与生态整合型(如Zendesk、华为云云客服)。核心选型需考量技术深度与业务适配性,企业决策者可遵循“界定战略目标-评估业务复杂度-规划技术演进”路径进行选择。结论指出,技术选型需综合考量厂商技术纵深、生态广度及行业理解能力,全链路AI+Agent路径因技术前瞻性、架构开放性与业务价值深度的平衡,展现出成为企业“智能服务中心”的潜力。

今日大家都在搜的词: