首页 > 业界 > 关键词  > IBM最新资讯  > 正文

IBM 推出高效 LLM 基准测试方法,计算成本降低99%

2024-06-04 10:23 · 稿源:站长之家

划重点:

⭐️ IBM 研究推出了一种创新的 LLM 基准测试方法,可以将计算成本降低99%。

⭐️ 该高效方法利用微型化基准测试,显著减少了评估 LLM 所需的时间和金钱成本。

⭐️ 新方法已经引起 AI 社区的关注,并被广泛采用,有望推动人工智能模型评估领域的快速发展。

站长之家(ChinaZ.com)6月4日 消息:IBM 研究发布了一项突破性的 LLM(大型语言模型)基准测试方法,承诺将计算成本降低高达99%。传统的基准测试,如斯坦福的 HELM,需要耗费超过一天的时间,并且成本高达1万美元,这对开发人员和研究人员来说是一个昂贵的过程。随着 LLMs 能力的增强,基准测试的过程变得更加严格,需要大量的计算能力和时间。

IBM

IBM 的创新方法源自以色列的 IBM 研究实验室,由 Leshem Choshen 领导的团队开发了一种新方法,大幅降低基准测试的成本。他们并非运行全尺寸基准测试,而是设计了一个使用原始基准测试规模的1% 的 “微型” 版本。令人惊讶的是,这些微型基准测试已被证明几乎同样有效,可以在98% 的准确度内估计出全尺寸测试的性能。

该团队利用人工智能从完整基准测试中选择最具代表性的问题,包含在微小版本中。这种选择性方法确保较小的基准测试仍然高度预测整体模型性能,消除了不贡献有意义评估的冗余或无关紧要的问题。

IBM 的高效方法引起了 AI 社区的关注,尤其是在2023年 NeurIPS 的高效 LLM 比赛中。面临使用有限计算资源评估大量模型的挑战,组织者与 IBM 合作实施了一个名为 Flash HELM 的简化基准测试。这种高效方法使他们能够迅速淘汰表现较差的模型,并将计算资源集中在最有前途的候选模型上,从而进行及时和具有成本效益的评估。

Flash HELM 的成功展示了 IBM 高效基准测试方法的潜力,促使其在 IBM 的 watsonx 平台上评估所有 LLMs。成本节约可观;例如,在像 HELM 这样的基准测试中评估 Granite13B 模型可能耗费高达1000个 GPU 小时,但使用高效基准测试方法显著降低了这些成本。

高效基准测试不仅降低成本,还通过允许更快速地迭代和测试新算法来加速创新。IBM 研究人员,包括 Youssef Mroueh 在内,指出这些方法使得更快速、更经济的评估成为可能,促进了更加灵活的发展过程。

这一概念已经超出了 IBM 的范畴。斯坦福实施了 Efficient-HELM,这是其传统基准测试的简化版本,为开发人员提供了选择示例数量和希望分配的计算资源量的灵活性。这一做法强调了一个新兴共识,即更大的基准测试不一定意味着更好的评估。

“大型基准测试不一定通过变得更大而增加价值,”Choshen 说。“这是我们的见解,我们希望它能够引领更快速、更经济的 LLM 性能评估方法。”

IBM 的高效基准测试方法代表了人工智能领域的重大进步,为评估先进语言模型所需的不断增加的成本和资源需求提供了实际解决方案。

举报

  • 相关推荐
  • 弃购率超70%,Upsello携手飞诺门阵押注电商AI导购

    Upsello与飞诺门阵科技成立合资公司,将独立站聊天框从“客服入口”转型为“销售入口”。其AI智能导购能识别用户购买意图,结合商品、订单、优惠等数据,主动完成推荐、挽单、跟进等动作,而非仅回答问题。实测显示,该方案可使AOV提升10%-15%,弃单挽回率5%-15%,响应时间低于5秒,并支持50多种语言。Upsello旨在让客服中心成为第二增长引擎,把对话窗口变成新的交易入口。

  • AI日报:千问全面开放第三方Agent与Skill;字节开源统一框架 Bernini;OpenAI 推出 Sites 功能

    AI日报今日要点:1. 阿里千问全面开放第三方Agent与Skill,瑞幸、东航等首批接入,升级为"超级Agent"个人助手;2. 字节跳动开源Bernini框架,通过"先理解、再生成"机制解决视频编辑画面失控问题;3. OpenAI推出Sites功能,可将创意秒变互动网站;4. 微软Win11隐藏AI卸载选项,可释放超2.5GB硬盘空间;5. DeepSeek首轮融资估值或达4000亿元,腾讯、宁德时代拟参投;6. OpenAI发布六行业Codex工作流插件;7. 谷歌推出Android虚假来电检测功能;8. 亚马逊Ring门铃人脸识别功能遭集体诉讼。

  • 肯德基Skill正式接入千问:疯狂星期四一句话下单 直接到店取

    肯德基Skill接入千问App,全国1.3万门店可直接语音点单,如“帮我点附近肯德基的疯狂星期四”,系统自动匹配门店、套餐并显示距离和取餐时间。作为首个接入的餐饮品牌,肯德基与千问会员权益打通,下单自动使用大神卡和优惠券。千问近期宣布全面开放第三方Agent和Skill,瑞幸咖啡、蜜雪冰城、东方航空等首批企业已测试,将陆续上线。Agent具备记忆和主动规划能力,可提供行程提醒、权益到期提醒等服务。

  • 暴喵修复匠修复电脑DLL、DirectX靠谱吗?实测暴喵修复匠的修复原理与用法

    文章指出电脑游戏运行时频繁出现DLL缺失、DirectX报错等问题,主要因系统断电、软件残留、驱动不匹配或DX版本冲突引起。暴喵修复工具通过智能扫描,一键检测并修复缺失或损坏的DLL与DirectX组件,支持区分32/64位及新旧DX版本,避免手动下载风险。相比传统方案,它更精准、纯净、全面,适合PC游戏玩家、系统重装用户及电脑小白,能有效解决游戏启动故障。

  • 千问宣布全面开放第三方Agent、Skill:肯德基、瑞幸、蜜雪冰城首批接入

    今日,千问App宣布,将向第三方Agent、Skill全面开放,所有企业均可在千问运营自己的品牌Agent。 据悉,瑞幸咖啡、肯德基、蜜雪冰城、东方航空等首批企业已在千问进行Agent服务测试,并将陆续上线。 未来,企业可在千问App内打造专属Agent,自定义人设、服务范围与交互方式,通过对话为用户提供产品咨询、下单推荐、行程服务、权益提醒等能力。 与传统客服不同,Agent具�

  • ROG Xbox Ally X20 搭载谷粒GuliKit TMR 摇杆,双方合作进一步深化

    谷粒科技GuliKit宣布其TMR电磁摇杆技术已应用于ROG最新发布的Xbox Ally X20掌机,双方合作进一步深化。该技术采用非接触式电磁感应方案,解决了传统碳膜电位器摇杆的漂移问题,提升了稳定性和寿命。此前谷粒已为ROG提供官方授权维修替换模块,此次直接应用于整机核心部件,展现了其行业领先地位。谷粒持续研发电磁摇杆技术,并已为Steam Deck、Switch等多类掌机及游戏控制器提供元件供应和定制化解决方案,未来将继续推动游戏操控体验升级。

  • 容声发布WILL生态舱冰箱以“全食材养鲜”布局世界杯观赛场景

    容声于5月22日推出WILL生态舱冰箱(2026世界杯官方定制),以三大养鲜舱为核心构建“全食材养鲜”技术体系。冷藏舱模拟自然光合作用,使果蔬失重率降低69.9%、番茄红素提升241%;微冻锁鲜舱采用晶点微冻技术,肉类无需解冻即取即切;-31°C冰封锁鲜舱可保鲜珍品30天以上。同步发布的容声方糖机皇Pro冰箱,通过双净化技术实现双区主动除菌净味,80cm黄金宽度兼顾小占地大容量,为年轻人打造颜值与质感兼备的优选冰箱。

  • CallFay GEO & Studio 新品发布会圆满举行

    CallFay在深圳举办“三虾万物·AI共生”新品发布会,推出CallFay Studio和CallFay GEO两大产品,聚焦AI内容生产与搜索可信占位。来自腾讯云、阿里云、火山引擎等行业伙伴围绕AI技术趋势、电商经营变革等展开交流。CallFay致力于构建从“被搜索”到“被成交”的企业全域智能经营闭环,通过产品矩阵降低AI应用门槛,助力商家实现数字化增长。

  • 自变量开源 Wall-OSS-0.5,全球领先首次实现“预训练”比肩“后训练”

    自变量机器人今日正式开源具身基础模型Wall-OSS-0.5,全球首次实现无需下游任务后训练,预训练模型直接部署至机器人即可完成搬运、分拣、整理绳索等多种操作任务,在部分任务上零样本泛化表现接近常规微调水平。该模型通过梯度桥、视觉对齐动作分词器、动作空间监督流匹配和DMuon优化器四项改进,让主干网络真正掌握动作能力而非依赖外挂模块,在十余个真实机器人任

  • 电脑DLL缺失、DirectX报错频发,暴喵修复匠提供一站式修复方案

    近年来,随着3A游戏体量增大,PC游戏环境日益复杂,玩家常遇驱动不兼容、运行库缺失、系统组件异常等“日常烦恼”。暴喵加速器生态推出的【暴喵修复匠】工具,通过自动扫描与智能修复,整合50余项系统环境内容,帮助玩家快速定位并解决常见问题。相比传统手动排查,该工具强调“可视化修复”和“游戏专项修复”,且安装纯净无捆绑,降低了PC游戏的技术门槛,正成

今日大家都在搜的词: