首页 > 业界 > 关键词  > 正文

Yandex开源LLM训练工具节省高达20%的GPU资源

2024-06-11 22:03 · 稿源: 中关村在线

Yandex 推出 YaFSDP,优化大型语言模型训练

总部位于莫斯科的科技巨头 Yandex 于 2024 年 6 月 11 日宣布开源 YaFSDP,一种用于提升大型语言模型 (LLM) 训练功效的方法。与现有的 FSDP 方法相比,YaFSDP 在 GPU 通信效率和 LLM 训练期间内存使用率方面均有显着改进,可加快训练速度高达 26%,具体取决于模型架构和参数数量。通过部署 YaFSDP,LLM 训练时间可缩短多达 20%,同时减少对 GPU 资源的需求。

Yandex 致力于为全球人工智能社区做出贡献,YaFSDP 的开源发布是其承诺的一部分。高级开发专家 Mikhail Khruschev 表示,YaFSDP 的开发旨在扩展其通用性,并与全球机器学习 (ML) 共同体分享,以促进更多开源工具的开发和提高效率。

LLM 训练是一项耗时且需要大量资源的任务。使用 YaFSDP 可以大幅降低训练成本。例如,在涉及具有 700 亿个参数的模型的预训练场景中,YaFSDP 可以节省大约 150 个 GPU 资源,每月节省的成本在 50 万至 150 万美元之间(取决于虚拟 GPU 供应商或平台)。

YaFSDP 通过改进 GPU 通信效率、确保训练过程中仅使用必要的处理器内存以及保持 GPU 交互的连续性来提升训练性能。在 LLM 训练中最需要通信的阶段(如预训练、微调和对齐),YaFSDP 的表现优于 FSDP 方法。在 Llama 2 和 Llama 3 模型上的应用表明,YaFSDP 分别将训练速度提高了 21% 和 26%。

YaFSDP 在包含 130 亿至 700 亿个参数的模型上表现出色,尤其是在 300 亿至 700 亿个参数的范围内效果显著。目前,YaFSDP 非常适合基于广泛使用的 LLaMA 架构的开源模型。

YaFSDP 是 Yandex 一系列开源工具中的一个,该公司此前分享了其他在机器学习社区中颇受欢迎的工具,包括 CatBoost(一种高性能基于决策树的梯度提升库)、YTsaurus(分布式存储和处理大数据平台)、AQLM(由 Yandex Research、HSE 大学、IST Austria 和 NeuralMagic 联合开发的高级量化算法,用于大幅压缩大型语言模型),以及 Petals(由 Yandex Research、HSE 大学、华盛顿大学、Hugging Face、巴黎-萨克雷高等经济学院和 Yandex 数据分析学院联合开发的简化 LLM 训练和微调过程的库)。

举报

  • 相关推荐
  • DeepSeek大胆披露:理论利润率高达545%!

    今日,DeepSeek正式在知乎平台开设了其官方账号,并发布了一篇名为《DeepSeek-V3/R1推理系统概览》的技术文章。在这篇文章中,DeepSeek首次向公众详细公布了其模型推理系统的优化细节,同时披露了成本利润率的关键信息。在未来的市场竞争中,DeepSeek有望凭借其价格优势和技术实力,赢得更多用户的青睐和支持。

  • DeepSeek第二炸:开源首个用于 MoE 模型训练通信库

    今天是DeepSeek开源周第二日,一早,DeepSeek如约就放出了开源代码库DeepEP王炸。DeepEP是首个用于MoE模型训练和推理的开源EP通信库,它填补了MoE模型专用通信工具的空白,为大规模分布式AI训练和实时推理场景提供了更高效的底层支持。6、深度优化场景针对NVLink到RDMA的非对称带宽转发场景进行专项优化,提升异构网络下的传输性能;此外,它还支持SM数量动态控制,平衡不同任务的吞吐量需求。

  • DeepSeek 爆火遇上安全风暴,瑞数信息多重防护体系护航 LLM

    全球爆火的DeepSeek:效率与隐患并存根据IDC最新报告,DeepSeek-R1在多类别大模型综合排名中飙升至第三梯队,其标志性成果是独创的"动态意图感知"架构——这项在用户意图预测准确率上高达96.7%的技术,使它在风格控制类模型领域与OpenAI的o1模型并列世界之首。大型语言模型正以前所未有的速度渗透到各行各业。瑞数信息将持续迭代“动态安全AI”技术,为LLM应用提供端到端防护,以创新为驱动,护航企业数字化进程。

  • 跨境GMV增长560%!Yandex Market成俄罗斯电商最大黑马

    【全球变局-全球电商市场黑天鹅事件频发】2025年新年伊始,跨境电商行业迎来多个黑天鹅事件北美电商市场:美国政府加税再加税,小额包裹免税政策不断摇摆。东南亚电商:泰国宣布全面征收增值税,越南对价值200万越南盾以下的进口商品征收增值税。这是YandexMarket中国区2025年首场官方卖家峰会,预计将有超过3000名俄罗斯电商卖家齐聚现场。

  • 研究称,AI搜索工具平均出错了约60%,Grok 3高达94%!

    哥伦比亚新闻评论旗下的陶氏数字新闻研究中心的一项新研究发现:用于新闻搜索的生成式AI模型存在严重的准确性问题——错误率高达60%。该研究对8款具备实时搜索功能的AI驱动搜索工具进行了测试,结果发现,AI模型在回答有关新闻来源的查询时,平均超过60%的答案是错误的。但除此之外,别无他话。

  • AI搜索风靡,但高达60%引用出错,付费版甚至更糟

    《七天爱人》,一首由程序员原创的AI神曲火了。创作者“Yapie”利用DeepSeek等工具输入“周杰伦曲风”“快餐爱情”等关键词,仅用2小时完成作词、编曲到混音的全流程创作,并将其上传到网易云音乐。比起恐惧作为工具的AI,或许拥抱AI、顺势为,才能更好地挥洒灵感、创造作品。

  • DeepSeek完美收官:开源劳苦功的3FS!

    在不舍与兴奋中,我们迎来了DeepSeek开源周第五天。今天DeepSeek开源的项目是:Fire-Flyer文件系统,即3FS。

  • DeepSeek第三弹:开源DeepGEMM!

    今天上午9点,DeepSeek继续履行开源周承诺,发布了开源DeepGEMM。该帖子一经转发,立即引来了2.1万阅读量,足以见其在国内外受到追捧的热度。本次开源属于DeepSeek开源周”的第三项项目,此前已发布FlashMLA和DeepEP。

  • 国产GPU沐曦回应裁员20%:比例严重失实

    近日,国产GPU大厂沐曦集成电路被传出在IPO上市前实施裁员计划,涉及约20%的员工,目的是降低成本以提高上市成功率。对此沐曦方面回应称:为顺应公司发展,公司会定期开展人员结构调整工作,优化人员配置,此过程有人员的补充与裁撤,均属正常范畴,并非市场传言增加上市概率,市场传言的优化比例也严重失实。今年2月,沐曦通过超讯通信拿下两笔大单,总金额达14.88亿元人民币,采购内容包括基于沐曦曦云C500-PPCIe的训推一体服务器及相关平台服务。

  • 阿里深夜开源万相2.1,这是AI视频领域的DeepSeek啊。

    昨天的AI新闻有点太密集了,肝快废了。凌晨2点半,Claude发3.7Sonnet,凌晨5点半,阿里发了推理模型QwQ-Max的预览版,早上10点DeepSeek开源了一个DeepEP代码库,然后晚上10点20,阿里的视频模型万相2.1,也来了。既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

热文

  • 3 天
  • 7天