首页 > 业界 > 关键词  > IBM最新资讯  > 正文

IBM 推出高效 LLM 基准测试方法,计算成本降低99%

2024-06-04 10:23 · 稿源:站长之家

划重点:

⭐️ IBM 研究推出了一种创新的 LLM 基准测试方法,可以将计算成本降低99%。

⭐️ 该高效方法利用微型化基准测试,显著减少了评估 LLM 所需的时间和金钱成本。

⭐️ 新方法已经引起 AI 社区的关注,并被广泛采用,有望推动人工智能模型评估领域的快速发展。

站长之家(ChinaZ.com)6月4日 消息:IBM 研究发布了一项突破性的 LLM(大型语言模型)基准测试方法,承诺将计算成本降低高达99%。传统的基准测试,如斯坦福的 HELM,需要耗费超过一天的时间,并且成本高达1万美元,这对开发人员和研究人员来说是一个昂贵的过程。随着 LLMs 能力的增强,基准测试的过程变得更加严格,需要大量的计算能力和时间。

IBM

IBM 的创新方法源自以色列的 IBM 研究实验室,由 Leshem Choshen 领导的团队开发了一种新方法,大幅降低基准测试的成本。他们并非运行全尺寸基准测试,而是设计了一个使用原始基准测试规模的1% 的 “微型” 版本。令人惊讶的是,这些微型基准测试已被证明几乎同样有效,可以在98% 的准确度内估计出全尺寸测试的性能。

该团队利用人工智能从完整基准测试中选择最具代表性的问题,包含在微小版本中。这种选择性方法确保较小的基准测试仍然高度预测整体模型性能,消除了不贡献有意义评估的冗余或无关紧要的问题。

IBM 的高效方法引起了 AI 社区的关注,尤其是在2023年 NeurIPS 的高效 LLM 比赛中。面临使用有限计算资源评估大量模型的挑战,组织者与 IBM 合作实施了一个名为 Flash HELM 的简化基准测试。这种高效方法使他们能够迅速淘汰表现较差的模型,并将计算资源集中在最有前途的候选模型上,从而进行及时和具有成本效益的评估。

Flash HELM 的成功展示了 IBM 高效基准测试方法的潜力,促使其在 IBM 的 watsonx 平台上评估所有 LLMs。成本节约可观;例如,在像 HELM 这样的基准测试中评估 Granite13B 模型可能耗费高达1000个 GPU 小时,但使用高效基准测试方法显著降低了这些成本。

高效基准测试不仅降低成本,还通过允许更快速地迭代和测试新算法来加速创新。IBM 研究人员,包括 Youssef Mroueh 在内,指出这些方法使得更快速、更经济的评估成为可能,促进了更加灵活的发展过程。

这一概念已经超出了 IBM 的范畴。斯坦福实施了 Efficient-HELM,这是其传统基准测试的简化版本,为开发人员提供了选择示例数量和希望分配的计算资源量的灵活性。这一做法强调了一个新兴共识,即更大的基准测试不一定意味着更好的评估。

“大型基准测试不一定通过变得更大而增加价值,”Choshen 说。“这是我们的见解,我们希望它能够引领更快速、更经济的 LLM 性能评估方法。”

IBM 的高效基准测试方法代表了人工智能领域的重大进步,为评估先进语言模型所需的不断增加的成本和资源需求提供了实际解决方案。

举报

  • 相关推荐
  • o3模型基准测试分数仅为10%,远低于OpenAI宣传的25%

    OpenAI的新AI模型o3在第一方和第三方基准测试中存在差异,引发公众对其透明度和测试实践的质疑。去年12月,o3首次亮相时声称能解答超过25%的FrontierMath问题,但实际正确率仅为2%。内部测试发现,o3能达到超过25%的准确率,但其使用的计算资源比上周OpenAI推出的模型多得多。Epoch AI发布的独立基准测试结果显示,o3的得分约为10%,远低于OpenAI宣称的25%。尽管如此,这并不意味着OpenAI的说法有误,可能是因为OpenAI使用了更强大的内部架构进行评估,并采用了更多计算资源。此外,Epoch指出其测试设置可能与OpenAI不同,并且在评估中使用了更新版本的FrontierMath。

  • 秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

    Kimi-Audio是一款开源的通用音频基础模型,在语音识别、音频理解、音频转文本、语音对话等任务中表现优异。该模型采用集成式架构设计,包含音频分词器、音频大模型和音频去分词器三大核心组件,支持多模态输入处理。在十余项音频基准测试中,Kimi-Audio均取得领先性能,如LibriSpeech ASR测试WER仅1.28%,VocalSound测试达94.85%。模型使用1300万小时多语言音频数据进行预训练,并构建了自动处理流水线生成高质量训练数据。评估结果显示,Kimi-Audio在语音识别、音乐理解、语音情感分析等任务上全面超越同类模型,在OpenAudioBench和VoiceBench对话测试中也表现最佳。目前模型代码、检查点和评估工具包已在GitHub开源。

  • 用上车规级UFS 4.0,让出行变得高效且可靠

    2025年上海国际车展显示,汽车智能化、电动化趋势加速,车载存储需求激增。随着大尺寸中控屏、HUD、流媒体等配置普及,单车存储容量将从35GB提升至数百GB甚至TB级别。车规级UFS 4.0存储成为关键,其传输速度达4,640MB/s,可快速加载高清地图和AI模型。严苛的车规认证(如AEC-Q100、IATF16949)要求存储芯片在极端温度、振动环境下稳定工作。行业正从单一ECU向域控制器架构转型,高性能车规存储需兼具大容量、高可靠性和宽温工作特性,以满足智能驾驶和车载娱乐系统的数据需求。

  • 亚马逊十大ERP系统推荐:助力卖家高效运营

    在亚马逊电商市场竞争日益激烈的背景下,如何高效管理库存、订单、财务等业务环节,成为卖家提升竞争力的关键。ERP系统作为卖家运营的核心工具,能够集成各环节数据,实现业务流程的自动化与智能化管理。通过有效利用ERP系统,卖家可实现业务流程的优化和智能化管理,从在激烈的市场竞争中脱颖出。

  • 腾讯“物种之眼”AI全新升级 高效识别数千物种

    AI系统“物种类辨”通过少量数据学习,显著提升了对多种生物的识别准确率与召回率,尤其在高精度识别多类生物方面表现出色,推动生态保护与智能技术发展。腾讯开放平台“野生生物多态数据协作”项目助力野生动物监测及保护工作,促进公众科学参与。

  • 弧面紧贴、深度杀根——飞科F8重塑高效净剃新标杆

    4 月 16 日,中国个人护理电器国民品牌飞科重磅发布新一代“高速弧面剃须系统”剃须刀F8(以下简称飞科F8),这款集“弧面不锈钢刀网、高速追频直线电机、AI胡须感应科技“于一体的创新产品……

  • 11.5天高效完成!我国超深水钻井周期纪录刷新

    快科技4月16日消息,中国海油宣布,在我国南部海域某超深水探井作业中,仅用11.5天就高效完成钻井作业,创造了3500-4000米超深水钻井周期的新纪录。这一突破标志着我国自主深水钻完井技术体系已具备国际先进水平。此次技术突破验证了我国在超深水钻完井领域的优智技术实力,对推动深水油气资源规模化开发具有重要意义。数据显示,十四五以来,我国深水井钻完井作业量较十三五增长超74%,有力支撑了多个大型深水油气项目的建成投产。为加快深海油气开发,中国海油在深水、超深水、高温高压、超高温超高压等多个高技术、高难度领域开展钻完?

  • 记忆重塑,讲真学堂打造《高效记忆训练营》助力学员记忆升级

    在日常生活中,许多人常遇到这样的场景:随手放置的物品难以找回,刚刚想要做的事情转眼就忘,老板和同事的交代也时常在脑海中消失无踪……这些记忆力减退的现象,不禁让人担忧自己是否提前步入了记忆力衰退的阶段。面对这一挑战,深入了解记忆与记忆消退的机制显得尤为重要。讲真学堂将继续秉承科学赋能、终身学习的理念,不断优化和完善《高效记忆训练营》课程,为更多学员提供高质量的记忆训练服务,助力他们打造坚实的记忆基石,迎接更加美好的人生。

  • 通过技术赋能与生态构建 一品威客提供高效的创意解决方案

    在数字经济高速发展的今天,中小企业普遍面临资源分散、成本高企、人才匹配困难等挑战。一品威客作为国内知名的数智化创意设计交易服务平台,通过技术赋能与生态构建,为中小企业提供了从创意需求发布到服务交付的全链路、数字化的创意解决方案。跨地域“技术输血”,破解本地资源困局江西景德镇的吴总在 2025 年 3 月计划开发商城小程序和网站时,面临本地技术�

  • 超一级能效!小米推出米家中央空调Pro风管机4匹:7999

    小米去年10月份推出了升级款的米家中央空调风管机Pro,当时有1.5匹、3匹两款配置,不过有些用户大客厅不太够用。小米正式推出了米家中央空调Pro风管机4匹版本,目前已经开启预售,定价7999元,预计还能支持国补。此外还标配智能空气管理面板,配备米家灵云智控引擎,可联动空净、加湿器,一键轻松管理全家空气。