首页 > 业界 > 关键词  > IBM最新资讯  > 正文

IBM 推出高效 LLM 基准测试方法,计算成本降低99%

2024-06-04 10:23 · 稿源:站长之家

划重点:

⭐️ IBM 研究推出了一种创新的 LLM 基准测试方法,可以将计算成本降低99%。

⭐️ 该高效方法利用微型化基准测试,显著减少了评估 LLM 所需的时间和金钱成本。

⭐️ 新方法已经引起 AI 社区的关注,并被广泛采用,有望推动人工智能模型评估领域的快速发展。

站长之家(ChinaZ.com)6月4日 消息:IBM 研究发布了一项突破性的 LLM(大型语言模型)基准测试方法,承诺将计算成本降低高达99%。传统的基准测试,如斯坦福的 HELM,需要耗费超过一天的时间,并且成本高达1万美元,这对开发人员和研究人员来说是一个昂贵的过程。随着 LLMs 能力的增强,基准测试的过程变得更加严格,需要大量的计算能力和时间。

IBM

IBM 的创新方法源自以色列的 IBM 研究实验室,由 Leshem Choshen 领导的团队开发了一种新方法,大幅降低基准测试的成本。他们并非运行全尺寸基准测试,而是设计了一个使用原始基准测试规模的1% 的 “微型” 版本。令人惊讶的是,这些微型基准测试已被证明几乎同样有效,可以在98% 的准确度内估计出全尺寸测试的性能。

该团队利用人工智能从完整基准测试中选择最具代表性的问题,包含在微小版本中。这种选择性方法确保较小的基准测试仍然高度预测整体模型性能,消除了不贡献有意义评估的冗余或无关紧要的问题。

IBM 的高效方法引起了 AI 社区的关注,尤其是在2023年 NeurIPS 的高效 LLM 比赛中。面临使用有限计算资源评估大量模型的挑战,组织者与 IBM 合作实施了一个名为 Flash HELM 的简化基准测试。这种高效方法使他们能够迅速淘汰表现较差的模型,并将计算资源集中在最有前途的候选模型上,从而进行及时和具有成本效益的评估。

Flash HELM 的成功展示了 IBM 高效基准测试方法的潜力,促使其在 IBM 的 watsonx 平台上评估所有 LLMs。成本节约可观;例如,在像 HELM 这样的基准测试中评估 Granite13B 模型可能耗费高达1000个 GPU 小时,但使用高效基准测试方法显著降低了这些成本。

高效基准测试不仅降低成本,还通过允许更快速地迭代和测试新算法来加速创新。IBM 研究人员,包括 Youssef Mroueh 在内,指出这些方法使得更快速、更经济的评估成为可能,促进了更加灵活的发展过程。

这一概念已经超出了 IBM 的范畴。斯坦福实施了 Efficient-HELM,这是其传统基准测试的简化版本,为开发人员提供了选择示例数量和希望分配的计算资源量的灵活性。这一做法强调了一个新兴共识,即更大的基准测试不一定意味着更好的评估。

“大型基准测试不一定通过变得更大而增加价值,”Choshen 说。“这是我们的见解,我们希望它能够引领更快速、更经济的 LLM 性能评估方法。”

IBM 的高效基准测试方法代表了人工智能领域的重大进步,为评估先进语言模型所需的不断增加的成本和资源需求提供了实际解决方案。

举报

  • 相关推荐
  • 大家在看
  • Dialog AI:先进的对话式AI面试平台,提升招聘效率。

    Dialog AI 是一个利用人工智能技术进行面试的在线平台,它通过自动化面试安排、实时AI面试和即时反馈报告,帮助企业简化招聘流程,提高面试效率和候选人满意度。该平台支持24/7的面试安排,确保公平一致的面试过程,并提供定制化的反馈报告,帮助企业做出更有信心的招聘决策。

  • ENSTANT 智云即弹:全档位AI吉他,让音乐创作更自由。

    ENSTANT 智云即弹是一款结合人工智能技术的吉他学习与创作应用,它通过模拟真实吉他的演奏体验,为用户提供了一种全新的音乐创作和学习方式。该产品利用先进的AI算法,能够即时生成和弦和旋律,帮助用户快速掌握吉他演奏技巧,激发音乐创作灵感。智云即弹以其创新性、易用性和强大的功能,为吉他爱好者和音乐创作者提供了一个便捷的音乐创作平台。

  • AI文本检测器:确保文本原创性,防止抄袭的AI检测工具。

    AI文本检测器是一款专业的AI检测工具,利用先进的AI技术,为用户提供文本原创性检测服务。它通过多种检测模型,如Chatgpt Detector Roberta、Roberta-Large OpenAI Detector和Roberta Academic Detector,确保检测结果的准确性和可靠性。该工具不仅免费使用,还支持多语言,响应速度快,并且强调用户隐私和数据安全。

  • story-writing:使用LangGraph代理帮助用户编写故事

    story-writing是一个基于LangGraph Cloud的应用程序,旨在以一种有趣且互动的方式展示LangGraph Cloud的功能。该应用程序允许用户在LangGraph代理的帮助下编写故事,用户可以编辑已经写好的章节,或者继续编写下一章。用户可以有多个相同章节编号的版本,并选择他们最喜欢的版本继续故事。在开始时,用户提供故事摘要、所需的写作风格和对故事重要的任何其他细节。从那时起,他们只需要提供编辑和继续指令,以引导代理朝期望的方向发展。注意:这个应用程序是一个原型,尚未准备好部署,可能会有bug或代理的输出结果不佳。

  • Zenquiz:智能生成考试复习题

    Zenquiz是一款将学习笔记转换为考试复习题的在线工具。它利用AI技术帮助学生、教师和企业用户提高学习效率和教学体验,通过个性化的选择题、判断题和填空题来强化记忆并准备考试。产品背景是教育领域的数字化转型,主要优点包括个性化学习、节省时间、增强记忆和提升参与度。

  • Concurrence.ai:AI驱动的社区管理工具

    Concurrence.ai 是一款利用人工智能技术帮助管理在线社区的工具,它能够24小时不间断地处理垃圾信息、广告,甚至可以根据自定义的过滤器进行管理。这款产品支持多语言,提供无限的消息支持,并有基于使用量的月度付费计划,适合各种规模的企业或个人使用。

  • 元乙智创:AIGC智能体数字人口播视频智创平台

    元乙智创是浙江元乙智能科技有限公司推出的AIGC智能体数字人口播视频智创平台。该平台专注于数字人产品的落地与技术开发,提供一站式的数字人口播视频创作服务。通过前沿技术支撑,用户可以快速生成专属数字分身,实现文化传播、教育、电商、文旅等多个领域的应用。平台的核心优势在于高仿真、高效率的克隆形体、语音和姿态,支持多语种、多格式、多分辨率和API集成,满足不同行业的需求。

  • 零沫AI产品分享社区:全球智能AI工具集,AI社区,AI工具箱产品库

    零沫AI产品分享社区是一个集合了全球智能AI工具的平台,提供AI社区交流和AI工具箱产品库,覆盖自然语言处理、机器学习、计算机视觉等多个领域。它为用户带来最新的AI技术发展趋势,寻找可靠的开源AI工具,提供全面资讯和资源。

  • Searcholic:AI驱动的电子书和文档搜索引擎。

    Searcholic是一个由人工智能技术驱动的搜索引擎,致力于为用户提供高效、可靠的电子书和文档搜索服务。它由在信息检索、数据科学和人工智能领域具有丰富经验的专家团队创建,旨在通过先进的搜索算法,为用户提供高度准确和相关的搜索结果。Searcholic不仅提供广泛的内容覆盖,包括学术论文、研究报告、技术文档、小说等,还注重用户友好的界面设计,确保用户能够轻松地搜索、预览和下载所需内容。此外,Searcholic非常重视用户的隐私和安全性,确保所有搜索和交互过程都是受保护和加密的。

  • Numina Math 7B:数学领域的开源AI模型,助力数学竞赛。

    Numina Math 7B是由Numina组织开发的AI数学模型,专注于解决高难度的数学问题,特别是在数学竞赛领域。该模型在AI数学奥林匹克竞赛中获得了第一名,显示出其在解决复杂数学问题上的强大能力。Numina是一个非盈利组织,致力于推动数学领域人类和人工智能的发展。

  • 小宾灯牌去除器:一键自动去除抖音粉丝灯牌

    小宾灯牌去除器是一款AI驱动的视频编辑工具,专为解决抖音粉丝灯牌问题而设计。它通过先进的算法自动识别并移除视频中的粉丝灯牌,提升视频的专业度和观众体验。主要优点包括简单易用、支持多种视频格式、GPU加速以及智能检测减少漏检。产品背景信息显示,它适用于主播、无人直播者、切片工作者和视频剪辑工作者等用户,帮助他们快速处理视频中的粉丝灯牌,提高工作效率。

  • AI小说家:人工智能驱动的小说创作平台

    AI小说家是一个利用人工智能大模型驱动的小说创作平台,支持创作者轻松完成万字长篇小说和短篇故事。它提供了向导式写作、多人物多视角的创作方式,并通过AI工具辅助创作,提升创作效率和质量。

  • AgentScope:构建大型语言模型支持的多智能体应用。

    AgentScope是一个创新的多智能体平台,旨在赋能开发者使用大规模模型构建多智能体应用。它具有易于使用、高鲁棒性和基于Actor的分布式特性,支持自定义容错控制和重试机制,以增强应用稳定性。

  • StockBot:基于Groq的极速AI聊天机器人,提供实时交互式股票图表和信息。

    StockBot是一款由Groq支持的AI聊天机器人,利用Llama3 70b在Groq上的Vercel AI SDK和TradingView的实时小部件,以对话形式回应实时、互动的图表和界面,专门针对您的请求。Groq的速度使得工具调用和提供近乎即时的响应成为可能,允许进行两次API调用,使用不同的专业提示返回响应。请注意:StockBot可能提供不准确的信息,不提供投资建议。它仅供娱乐和教学使用。

  • Athlabs:AI辅助的运动训练助手,实现无损伤训练

    Athlabs是一个利用人工智能技术为用户提供运动训练反馈的数字教练平台。它通过多模态AI模型提供即时、校正性反馈,帮助用户在没有运动损伤的情况下进行训练。平台还提供个性化指导,由专业体育专家提供精确的指导,以及为用户定制的挑战训练计划。此外,Athlabs还计划提供专家洞察,以进一步提升用户的表现。

  • GPT4oMini.app:高级AI对话生成器,免费获取答案。

    GPT4oMini.app是一个高级AI对话生成器,它允许用户通过自然语言与AI进行互动,获取各种问题的答案。该产品由Karthikeyan A创建,提供给用户一个平台,不仅可以使用GPT-4o-Mini,还可以无限使用完整版本的GPT-4o。产品的主要优点包括提供有效的时间管理策略,帮助用户准备技术面试,以及提供财务自由和生活设计方面的策略。

  • Album AI:AI驱动的相册,自动生成图像元数据并与之对话。

    Album AI是一个实验性项目,它使用gpt-4o-mini作为视觉模型,自动识别相册中图像文件的元数据,并利用RAG技术实现与相册的对话。它既可以作为传统相册使用,也可以作为图像知识库,辅助大型语言模型进行内容生成。

  • VGGSfM:深度学习驱动的三维重建技术

    VGGSfM是一种基于深度学习的三维重建技术,旨在从一组不受限制的2D图像中重建场景的相机姿态和3D结构。该技术通过完全可微分的深度学习框架,实现端到端的训练。它利用深度2D点跟踪技术提取可靠的像素级轨迹,同时基于图像和轨迹特征恢复所有相机,并通过可微分的捆绑调整层优化相机和三角化3D点。VGGSfM在CO3D、IMC Phototourism和ETH3D三个流行数据集上取得了最先进的性能。

  • aimo-progress-prize:AI数学奥林匹克解决方案

    这个GitHub仓库包含了训练和推理代码,用于复制我们在AI数学奥林匹克(AIMO)进展奖1中的获胜解决方案。我们的解决方案由四个主要部分组成:一个用于微调DeepSeekMath-Base 7B以使用工具集成推理(TIR)解决数学问题的配方;两个约100万个数学问题和解决方案的高质量训练数据集;一个自洽解码算法,用于生成具有代码执行反馈的解决方案候选项(SC-TIR);四个来自AMC、AIME和MATH的精心选择的验证集,以指导模型选择并避免对公共排行榜的过拟合。

  • NuminaMath:数学竞赛问题的解决方案集合

    NuminaMath是一套为训练最先进数学语言模型(SOTA math LLMs)而设计的数据库和模型。它包含860k+数学竞赛问题及其解决方案对,每个解决方案都使用了链式思维(Chain of Thought, CoT)推理进行模板化。此外,还有70k+数学竞赛问题,其解决方案由GPT-4通过工具集成推理(Tool-Integrated Reasoning, TIR)生成。NuminaMath通过提供高质量的数学问题和解决方案,为教育工作者和学生提供了一个宝贵的资源,帮助他们提高数学思维和解决问题的能力。

今日大家都在搜的词:

热文

  • 3 天
  • 7天