首页 > 业界 > 关键词  > Luna最新资讯  > 正文

Galileo发布Luna,重新定义GenAI评估,成本降低97%、速度提升11倍

2024-06-07 14:20 · 稿源:站长之家

划重点:

⭐ Galileo 推出 Luna,一套革命性的 Evaluation Foundation Models,重新定义企业 GenAI 评估,速度、成本和准确性均突破前所未有的境界。

⭐ Luna 的创新核心在于其专为特定评估任务设计的小型语言模型,大幅提升了速度、成本和准确性。

⭐ Luna 不仅速度更快、成本更低,还可在没有传统基准数据集的情况下运行,极大地简化了评估流程。

站长之家(ChinaZ.com)6月7日 消息:企业人工智能技术领先者 Galileo 近日发布了一款名为 Luna 的全新产品,这一革命性的 Evaluation Foundation Models 套件重新定义了企业对 GenAI 系统的评估方式。Luna 承诺在速度、成本和准确性方面进行了前所未有的突破。

“Galileo 推出 Luna,旨在解决当前 GenAI 评估方法的局限性,这些方法通常速度缓慢、成本高昂,而且往往不准确。”Galileo 联合创始人兼首席执行官 Vikram Chatterji 在接受 VentureBeat 采访时表示。“推动我们开发 Luna 的初衷源自对在生产环境中进行超低延迟、成本效益高和高准确性评估的需求。”

image.png

Luna 的研发标志着 Galileo 取得了重要的里程碑,该公司自2021年初成立以来一直处于企业 GenAI 的最前沿。公司对推动人工智能评估边界的执着可从 Luna 的开发过程中窥见端倪,该过程历时近一年,进行了密集的研发工作。

Luna,Galileo 划时代的 Evaluation Foundation Models 套件,在接收器操作特征曲线下面积(AUROC)得分的基准比较中胜过了领先的人工智能评估方法。更高的 AUROC 值达到了0.78,表明 Luna 在评估企业生成式人工智能系统的准确性方面更胜一筹,超越了 GPT-3.5、Trulens Groundedness 和 RAGAS Faithfulness 等竞争对手。

Luna 创新的核心在于其专为特定评估任务设计的小型语言模型,精心为幻觉检测、语境质量评估、数据泄漏防护和恶意提示识别等任务量身定制。这种专业设计使得 Luna 在速度、成本和准确性三个关键指标上表现卓越。

“Luna 通过几项创新的方式超越了 GPT-3.5在速度、成本和准确性方面,”Chatterji 解释道。“Luna 利用专为特定评估任务量身定制的小型语言模型,大大降低了计算开销和成本。这种设计选择使得评估的成本比使用 GPT-3.5低97%,速度则比使用 GPT-3.5快11倍。”

image.png

然而,这并不仅仅是关于速度和成本。Luna 还以行业领先的准确性脱颖而出,在检测幻觉、提示注入、个人可识别信息(PII)等方面,其性能比以往方法高出多达20%。“多头小型语言模型和智能分块等先进技术确保 Luna 模型更好地保持上下文并提供更准确的评估,”Chatterji 补充道。

在对评估100万次查询的月度成本进行比较时,Galileo 的 Luna 大幅低于其他方法,仅需每月175美元。Luna 的专为特定评估任务设计的小型语言模型实现了超低成本的评估,使其比 GPT-3.5(每月6248美元)、RAGAS Faithfulness(每月7994美元)和 Trulens Groundedness(每月16641美元)等替代方案高效率低至97%。

image.png

Luna 最引人注目的一个方面是其能够在不需要传统基准数据集的情况下运行。通过利用在多样、领域特定数据集上微调的预训练评估模型,Luna 消除了创建定制测试集的耗时和昂贵过程。这一创新简化了评估流程,减少了对大量人工生成数据的依赖。

Luna 的潜在应用广泛,Chatterji 强调了它在需要人工智能评估具有高可靠性和速度的行业中的相关性。“Luna 在需要大规模应用、吞吐量大的企业应用中尤为强大(比如每月数百万次查询)。我们发现在医疗保健、金融和电信等行业,财富100强企业特别喜欢使用 Luna。” 他说道。

Galileo 的 Luna 在人工智能评估方面提供了无与伦比的速度,处理单个查询的延迟仅为0.232秒。这较之其他方法,例如 GPT-3.5的2.5秒、Galileo Chainpoll 的3.0秒、Trulens Groundedness 的3.4秒和 RAGAS Faithfulness 的5.4秒,有了显著提升。Luna 的专为特定评估任务设计的小型语言模型实现了超低延迟的评估,使其比竞争方法快至多达11倍。

image.png

用例涵盖了对人工智能输出的实时监控、检测人工智能生成内容中的幻觉,以确保聊天机器人交互的安全性和质量。通过 Galileo 的 Fine Tune 产品,Luna 可定制以满足特定客户需求,为制药和金融服务等行业的关键任务实现95% 以上的准确性。

随着生成式人工智能领域的快速发展,Galileo 致力于保持创新的最前沿。Chatterji 强调,Luna 将在三个关键方面扩展规模:扩大对更多评估任务类型的支持、持续提高准确性,以及进一步降低成本和延迟。

“Galileo 致力于突破人工智能评估的可能边界,帮助组织将可信赖的人工智能引入生产环境,激发消费者的信心和信任。”Chatterji 表示。“随着生成式人工智能领域的不断演进,Galileo 将继续致力于为客户提供尖端的评估能力,使人工智能在业务部署中变得实用,并在消费者中产生信心和信任。”

随着 Luna 的推出,Galileo 在企业 GenAI 评估领域巩固了其领先地位。随着越来越多的组织寻求利用生成式人工智能的力量,Luna 提供快速、成本效益高和准确的评估能力将成为推动广泛采用和释放这一变革性技术全部潜力的关键因素。

官方博客:https://www.rungalileo.io/blog/introducing-galileo-luna-a-family-of-evaluation-foundation-models

举报

  • 相关推荐
  • 健合旗下Swisse PLUS携手TEDx举办抗衰沙龙,发布NAD+新生瓶系列

    《全球抗衰老市场研究报告》显示,2024年全球抗衰老产品市场规模达2662亿美元。高端消费群体需求从粗放式营养补充转向精准干预,推动行业向细胞级解决方案升级。Swisse PLUS与TEDx合作举办主题沙龙,发布NAD+新生瓶系列,汇聚专家学者探讨细胞抗衰科学路径,倡导建立个人健康管理系统,实现精准抗衰与主动健康管理。

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • AI日报:抖音打击AI技术滥用行为;OpenAI 收购开发数据分析平台 Statsig;ElevenLabs 音效模型更新

    抖音打击AI技术滥用行为,对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2,支持长音频和无缝循环。OpenAI收购数据分析平台Statsig,增强产品迭代能力。亚马逊推出Lens Live AI功能,实时扫描购物。谷歌AI推出Stax工具,帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型,提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型,优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld,精准率达92%。瑞士发布开源大模型Apertus,提供多语言处理能力。

  • AI日报:腾讯开源3D世界模型HunyuanWorld-Voyager;即梦AI系列模型开放API;通义推智能体开发框架AgentScope 1.0

    本文介绍了AI日报栏目,聚焦人工智能领域最新动态。主要内容包括:腾讯开源具备3D重建能力的HunyuanWorld-Voyager模型、通义实验室推出的多智能体开发框架AgentScope 1.0、即梦AI开放图像与视频生成API、腾讯翻译模型Hunyuan-MT-7B在WMT2025斩获佳绩、苹果推出图像生成技术STARFlow和视觉语言模型FastVLM、新模型CoMPaSS-FLUX.1提升空间理解能力、Cherry Studio免费提供Qwen38B模型、谷歌Gemini API新增网页内容解析功能,以及腾讯优图开源智能体框架Youtu-Agent。这些进展展现了AI技术在多个领域的创新与应用。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • 智谱AI发布AutoGLM 2.0 - 首个为手机而生的通用Agent。

    智谱今天,终于发了AutoGLM2.0。 想一想,AutoGLM1.0的版本,距离我第一次首发写他们,已经过去快10个月了。 那个时候,他们掀起了一波Agent热潮,甚至连A股都出现了智谱概念股,他们也开启了Agent的另一条支线,用视觉的方式来操控原有设备。 当时,我对着我的手机说:我29号要去一趟深圳,你帮我定个罗湖地铁站附近的酒店,预算600元以内,大床房。 然后,我的手机,就像

  • 全球首款骁龙8 Elite Gen5旗舰!卢伟冰喜提小米16

    今天下午,小米集团总裁卢伟冰使用小米新机发了一条微博,引发关注。不出意外,这款新机就是即将登场的小米16,新品已经获得入网许可,就等官宣了。 据悉,小米16系列共有3款,型号分别是25098PN5AC、2509FPN0BC、25113PN0EC,预计分别命名为小米16、小米16 Pro和小米16 Pro Max。 该机全球首发骁龙8 Elite Gen5平台,这颗芯片由2*4.61GHz超大核 6*3.63GHz大核组成,并集成Adreno 840 GPU,GPU�

  • 首批骁龙8 Elite Gen5/天玑9500旗舰已备案:10月机圈大战

    首批骁龙8 Elite Gen5、天玑9500旗舰已经备案,包括小米16系列、荣耀Magic8系列、vivo X300系列和OPPO Find X9系列。 据悉,前两款旗舰搭载高通骁龙8 Elite Gen5平台,后两款旗舰搭载联发科天玑9500平台,除了小米16系列会在9月亮相之外,其它迭代旗舰都会集中到10月发布,10月份将迎来机圈大混战。

  • AI日报:钉钉十周年发布8.0版本;微信悄悄上线AI播客;阿里开源 Mobile-Agent 3

    AI日报栏目聚焦人工智能领域最新动态。钉钉发布8.0版本推出AI办公应用钉钉ONE,通过自然语言交互简化工作流程;阿里开源Mobile-Agent-v3跨平台代理框架;微信测试AI播客功能,实现双人对话式新闻播报;钉钉推出首款AI硬件录音笔DingTalk A1;苹果拟为Siri引入谷歌Gemini大模型;苹果发布适配版SlowFast-LLaVA模型提升长视频分析性能;Meta获得Midjourney技术授权加强AI图像生成竞争力;谷歌Drive新增Vids视频编辑功能降低制作门槛;夸克发布健康大模型通过12学科主治医师测评;AI小游戏Draw A Fish凭借极简设计引发全球热潮。

  • 瓴羊发布企业级分析Agent,让人人都可拥有超级数据分析师

    阿里巴巴旗下瓴羊发布首个数据分析Agent“智能小Q”,升级为“超级数据分析师”,由问数、解读和报告三大核心Agent组成。该工具能快速获取数据、解读数据并输出洞察报告,将原本需数小时的数据处理时间缩短至最快10秒,专业报告生成仅需20分钟。通过三重技术体系提升企业级数据分析可靠性,覆盖近20个细分行业,支持用户自定义需求。目前已有瑞幸咖啡、牧原食品等百余家企业客户使用,9月9日起全面开放给所有企业用户。

今日大家都在搜的词:

热文

  • 3 天
  • 7天