首页 > 业界 > 关键词  > IBM最新资讯  > 正文

IBM 推出高效 LLM 基准测试方法,计算成本降低99%

2024-06-04 10:23 · 稿源:站长之家

划重点:

⭐️ IBM 研究推出了一种创新的 LLM 基准测试方法,可以将计算成本降低99%。

⭐️ 该高效方法利用微型化基准测试,显著减少了评估 LLM 所需的时间和金钱成本。

⭐️ 新方法已经引起 AI 社区的关注,并被广泛采用,有望推动人工智能模型评估领域的快速发展。

站长之家(ChinaZ.com)6月4日 消息:IBM 研究发布了一项突破性的 LLM(大型语言模型)基准测试方法,承诺将计算成本降低高达99%。传统的基准测试,如斯坦福的 HELM,需要耗费超过一天的时间,并且成本高达1万美元,这对开发人员和研究人员来说是一个昂贵的过程。随着 LLMs 能力的增强,基准测试的过程变得更加严格,需要大量的计算能力和时间。

IBM

IBM 的创新方法源自以色列的 IBM 研究实验室,由 Leshem Choshen 领导的团队开发了一种新方法,大幅降低基准测试的成本。他们并非运行全尺寸基准测试,而是设计了一个使用原始基准测试规模的1% 的 “微型” 版本。令人惊讶的是,这些微型基准测试已被证明几乎同样有效,可以在98% 的准确度内估计出全尺寸测试的性能。

该团队利用人工智能从完整基准测试中选择最具代表性的问题,包含在微小版本中。这种选择性方法确保较小的基准测试仍然高度预测整体模型性能,消除了不贡献有意义评估的冗余或无关紧要的问题。

IBM 的高效方法引起了 AI 社区的关注,尤其是在2023年 NeurIPS 的高效 LLM 比赛中。面临使用有限计算资源评估大量模型的挑战,组织者与 IBM 合作实施了一个名为 Flash HELM 的简化基准测试。这种高效方法使他们能够迅速淘汰表现较差的模型,并将计算资源集中在最有前途的候选模型上,从而进行及时和具有成本效益的评估。

Flash HELM 的成功展示了 IBM 高效基准测试方法的潜力,促使其在 IBM 的 watsonx 平台上评估所有 LLMs。成本节约可观;例如,在像 HELM 这样的基准测试中评估 Granite13B 模型可能耗费高达1000个 GPU 小时,但使用高效基准测试方法显著降低了这些成本。

高效基准测试不仅降低成本,还通过允许更快速地迭代和测试新算法来加速创新。IBM 研究人员,包括 Youssef Mroueh 在内,指出这些方法使得更快速、更经济的评估成为可能,促进了更加灵活的发展过程。

这一概念已经超出了 IBM 的范畴。斯坦福实施了 Efficient-HELM,这是其传统基准测试的简化版本,为开发人员提供了选择示例数量和希望分配的计算资源量的灵活性。这一做法强调了一个新兴共识,即更大的基准测试不一定意味着更好的评估。

“大型基准测试不一定通过变得更大而增加价值,”Choshen 说。“这是我们的见解,我们希望它能够引领更快速、更经济的 LLM 性能评估方法。”

IBM 的高效基准测试方法代表了人工智能领域的重大进步,为评估先进语言模型所需的不断增加的成本和资源需求提供了实际解决方案。

举报

  • 相关推荐
  • 告别模型搜寻困境:AIbase模型广场让你高效找到最佳AI模型

    文章探讨了在AI技术快速发展背景下,如何高效发现和评估适合需求的AI模型这一核心挑战。传统方式存在模型分散、评估门槛高、应用场景模糊等问题。AIbase模型广场通过聚合主流平台模型、提供多维度评估(性能指标、用户反馈、易用性等)、强化场景连接(按业务问题分类)和部署辅助信息,构建了完整的模型发现与应用生态。该平台能显著提升效率,帮助开发者快速锁�

  • 33999元!索尼发布黑卡RX1RM3:6100万像素CMOS

    索尼昨晚发布了黑卡系列全画幅旗舰RX1R系列第三代产品RX1R III(型号名:DSC-RX1RM3)。 自2012年索尼发布第一台黑卡RX100以来,索尼黑卡系列以简约经典的机身设计、出色的便携性与高画质影像表现赢得广大创作者的喜爱。 如今,索尼黑卡全画幅旗舰新品RX1RM3将索尼前沿影像技术与经典索尼黑卡系列相融合,再次升级掌握全幅”的高品质便携拍摄体验。 索尼黑卡RX1RM3搭载约6100�

  • 增量计算掀架构革命:云器定义新标准,Flink高成本遇挑战

    云器科技提出"通用增量计算"技术,解决大数据处理痛点。相比传统流计算框架Flink,该技术采用"按需增量"模式,仅计算数据变化部分,在保证分钟级时效的同时大幅降低资源消耗。云器还制定了行业首个增量计算标准SPOT,推动技术生态发展。该技术已在小红书等企业应用,实现流批一体化开发,支持标准SQL语法,开发效率提升显著。增量计算代表数据处理第四范式革命,为中小企业数字化转型提供新可能。

  • 铭凡推出795S7 SE台式主机:7L容量,自带7945HX处理器,支持半高独显

    知名迷你PC厂商Minisforum推出新款795S7SE台式主机,搭载AMD锐龙9 7945HX处理器(16核32线程/5.4GHz)和Radeon 610M核显,支持安装RTX 5060半高独显。主机采用7L迷你机箱,配备400W电源,支持双通道DDR5内存(最高96GB)和双M.2插槽(最大8TB存储)。接口方面提供6个USB、Type-C及视频输出接口,并内置一键恢复BIOS按键。32GB+1TB版本官方售价4119元,国补后3295元。

  • 华为Mate X5折叠屏降价:8999元起 至高优惠4000元

    今日,华为终端正式对外宣布,旗下热门折叠屏手机华为Mate X5开启大幅优惠活动,至高可享受4000元的优惠力度,这一消息瞬间在智能手机市场掀起波澜。 从华为商城公布的信息来看,参与此次优惠的版本为12GB256GB和12GB512GB。优惠后,12GB256GB版本售价为8999元,12GB512GB版本售价为9999元,性价比进一步提升。 在性能配置方面,华为Mate X5堪称卓越。它搭载了麒麟9000s处理器,为用

  • REDMI Turbo 4 Pro粉金新配色发布 售价1899元起

    今日,REDMI官方正式为Turbo4Pro机型推出全新粉金色版本,售价维持1899元起不变。 作为REDMI今年4月24日发布的性能旗舰,Turbo4Pro上市即成爆款,不到一个月时间便创下累计销量突破100万台的佳绩。此次新增的粉金配色,在保持原有硬核配置的同时,通过色彩创新进一步拓宽用户群体。 屏幕方面,该机配备6.83英寸1.5K LTPS直屏,采用M9发光材料,支持120Hz高刷新率、480Hz触控采样率�

  • 小米YU7磁吸纸巾盒卖169元 雷军:车规级 成本高

    近日,小米YU7成为汽车圈与科技圈的热门话题,其全车配备的16个磁吸点位备受关注,其中中控屏后方专门为纸巾盒设置的磁吸位更是一大亮点。不过,配套的Xiaomi Life车载磁吸纸巾盒上架小米汽车App商城后,却因169元的售价引发争议,不少网友直指价格太贵。

  • 行业首发3+1麦开放式降噪!荣耀Earbuds耳机发布 699元

    今晚荣耀Earbuds耳机正式发布,售价699元,国补到手价594.15元。 该款耳机延续荣耀标志性的月相设计”,外壳弧线源自盈亏变化的月影,提供极昼金与极夜黑两款配色,兼具科技感与时尚属性。 荣耀Earbuds开放式耳机单耳重量仅7.9克,以三点受力结构搭配镍钛合金耳挂与液态硅胶包覆,舒适轻盈。它还是首款通过了SGS亲肤友好金标认证的耳机,让用户佩戴安全且舒适。 在音质

  • 还在搜“最新AI产品”?这个AI产品库让你领先99%的人!

    文章介绍AIbase产品库,这是一个专注于AI工具导航的平台。它通过每日更新全球最新AI产品、精准分类(如写作、绘画、视频生成等)、多维度筛选(价格、功能、平台)和真实用户评价,帮助用户高效发现优质AI工具。平台覆盖办公提效、创意设计、编程开发等场景,解决信息过载问题,让用户能快速找到适合自己需求的AI解决方案。

  • 荣耀Magic V5今日首销:8999元起 全球最轻薄折叠旗舰

    今日10:08,荣耀史上最强折叠屏旗舰荣耀Magic V5正式开启销售,起售价为8999元。这款新机一登场便吸引众多目光,因其一举创下8项世界纪录,成为全球最轻最薄的折叠旗舰手机。 在轻薄与性能的极致融合上,荣耀Magic V5表现卓越。它拥有0.18mm超薄高硅电芯芯片、0.014mm超细编织航天纤维、0.003mm超高组装适配精度,机身厚度仅8.8mm,重量仅217g,是目前最薄的折叠手机,也是最轻�

热文

  • 3 天
  • 7天