首页 > 业界 > 关键词  > 正文

Yandex开源LLM训练工具节省高达20%的GPU资源

2024-06-11 22:03 · 稿源: 中关村在线

Yandex 推出 YaFSDP,优化大型语言模型训练

总部位于莫斯科的科技巨头 Yandex 于 2024 年 6 月 11 日宣布开源 YaFSDP,一种用于提升大型语言模型 (LLM) 训练功效的方法。与现有的 FSDP 方法相比,YaFSDP 在 GPU 通信效率和 LLM 训练期间内存使用率方面均有显着改进,可加快训练速度高达 26%,具体取决于模型架构和参数数量。通过部署 YaFSDP,LLM 训练时间可缩短多达 20%,同时减少对 GPU 资源的需求。

Yandex 致力于为全球人工智能社区做出贡献,YaFSDP 的开源发布是其承诺的一部分。高级开发专家 Mikhail Khruschev 表示,YaFSDP 的开发旨在扩展其通用性,并与全球机器学习 (ML) 共同体分享,以促进更多开源工具的开发和提高效率。

LLM 训练是一项耗时且需要大量资源的任务。使用 YaFSDP 可以大幅降低训练成本。例如,在涉及具有 700 亿个参数的模型的预训练场景中,YaFSDP 可以节省大约 150 个 GPU 资源,每月节省的成本在 50 万至 150 万美元之间(取决于虚拟 GPU 供应商或平台)。

YaFSDP 通过改进 GPU 通信效率、确保训练过程中仅使用必要的处理器内存以及保持 GPU 交互的连续性来提升训练性能。在 LLM 训练中最需要通信的阶段(如预训练、微调和对齐),YaFSDP 的表现优于 FSDP 方法。在 Llama 2 和 Llama 3 模型上的应用表明,YaFSDP 分别将训练速度提高了 21% 和 26%。

YaFSDP 在包含 130 亿至 700 亿个参数的模型上表现出色,尤其是在 300 亿至 700 亿个参数的范围内效果显著。目前,YaFSDP 非常适合基于广泛使用的 LLaMA 架构的开源模型。

YaFSDP 是 Yandex 一系列开源工具中的一个,该公司此前分享了其他在机器学习社区中颇受欢迎的工具,包括 CatBoost(一种高性能基于决策树的梯度提升库)、YTsaurus(分布式存储和处理大数据平台)、AQLM(由 Yandex Research、HSE 大学、IST Austria 和 NeuralMagic 联合开发的高级量化算法,用于大幅压缩大型语言模型),以及 Petals(由 Yandex Research、HSE 大学、华盛顿大学、Hugging Face、巴黎-萨克雷高等经济学院和 Yandex 数据分析学院联合开发的简化 LLM 训练和微调过程的库)。

举报

  • 相关推荐
  • 确定出席!知名媒体人胡锡进将致辞Yandex Market官方品牌峰会!

    知名媒体人胡锡进近日表示,跨境电商已成为当前风口,国内电商利润普遍压缩至个位数,而跨境电商利润率普遍超过15%,做得好甚至能超50%。他援引案例指出,中国电商在供应链、运营经验及技术应用方面具备优势,转型跨境电商成功率高。俄罗斯电商市场增长迅猛,2025年上半年销售额超5.3万亿卢布,同比增长36%,预计全年将超14.7万亿卢布。Yandex Market平台上半年跨境订单增长10倍,吸引全球卖家关注。为助力中国卖家开拓俄罗斯市场,Yandex Market将于11月29日在深圳举办品牌峰会,胡锡进将首次出席并分享机遇。

  • 人工智能巨头OpenAI拟上市 估值或高达1万亿美元

    OpenAI正积极推进上市计划,据知情人士透露,该公司可能最早于2026年下半年向证券监管机构提交上市申请,目标在2027年正式上市。 此次IPO的估值有望达到约1万亿美元,或将跻身全球规模最大的IPO之列。 在初步讨论中,OpenAI曾考虑通过上市筹集至少600亿美元资金,实际融资规模可能进一步扩大。

  • 2025最值得尝试的AI搜索可见性监控工具推荐榜

    AI搜索时代,品牌可见性监控成为刚需。传统SEO工具无法追踪AI平台推荐情况,而71%美国用户用AI辅助决策。文章指出,大语言模型每次仅推荐2-7个品牌,若未入选即等同于“不存在”。国内企业痛点在于缺乏本土化监控工具,多数工具仅覆盖ChatGPT等国际平台。为此推荐AIBase平台,可实时监测豆包、DeepSeek等五大国产AI平台,提供多平台覆盖、智能场景分析和趋势追踪功能。建议企业建立“监控-优化-验证”闭环,持续提升AI搜索可见性。

  • 6岁儿童常看手机近视高达1200度 医生:随时可能失明

    近日,因上课时总是歪头、眯眼,福州一名6岁女孩被送医检查,结果查出近视高达1200度。 据了解,这已远超普通近视的范畴,属于病理性高度近视,孩子的视网膜随时面临脱落甚至失明的风险。 据福建省级医院专家介绍,这名小朋友的父母均为高度近视,而孩子平时主要由爷爷奶奶照顾,由于比较宠爱孩子,常把手机、平板电脑等电子设备拿给她看。

  • 全球开源技术峰会GOTC 2025 圆满落幕

    11月2日,为期两天的全球开源技术峰会GOT C2025在北京圆满落幕。本届峰会聚焦开源与人工智能深度融合,汇聚全球顶尖专家、行业领袖与数千开发者,共同探讨开源驱动的AI未来蓝图。现场吸引超3000人次参与,线上直播观看量突破500万,全网曝光超6亿次。大会设立十二大专题论坛,覆盖大模型应用、AI编程、云原生AI等前沿领域,并发布Open AgentKit等关键项目。通过“论坛+市集�

  • 百度智能云这项开源,让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

    10月28日,百度智能云联合SGLang社区开源针对DeepSeek-V3.2优化的多token预测(MTP)技术代码。该技术通过批量生成和集中验证机制,使模型解码吞吐量提升超2倍,突破传统自回归解码的序列化瓶颈。此次开源的MTP方案已完成与DeepSeek-V3.2稀疏注意力架构的深度适配,并经过百度内部业务验证,开发者可"开箱即用"获得稳定可靠的推理加速能力。

  • 万源共振,智构未来,全球开源技术峰会GOTC 2025在京开幕

    11月1日,全球开源技术峰会GOTC+2025在北京亦庄开幕,以“万源共振,智构未来”为主题,汇聚全球开源与AI领域专家。峰会探讨开源与人工智能深度融合的技术前景与生态建设,发布Open AgentKit平台及天翼云开源OpenTeleDB等成果。现场超2000人参会,直播观看超300万,展现中国开源生态活力与创新潜力,推动数字经济发展。

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • 品牌在deepseek、豆包里排第几?免费GEO排名查询工具帮你一键看清

    随着AI搜索普及,传统SEO正被GEO(生成式引擎优化)取代。GEO核心是提升品牌在AI生成答案中的可见度,而非获取点击流量。数据显示超60%用户已使用AI搜索,若品牌未被AI提及将失去流量入口。文章推荐免费工具AIBase,支持多平台一键检测品牌在主流AI助手的曝光排名、竞品对比及可视化报告,并提供内容权威性、语义化表达等GEO优化策略,帮助品牌在AI时代建立竞争优势。

  • 佳能 R50V:APS-C 画幅 高画质 + 高帧率双突破,2025 年专业双修微单新基准

    佳能R50V作为2025年APS-C画幅全能微单,凭借2420万像素CMOS与DIGIC X处理器,实现“高画质+高帧率”双突破。支持6K超采4K 30P无裁切、4K 60P流畅录制及全高清120P慢动作,配备10-bit 4:2:2色深与Canon Log 3专业视频配置。机身仅重323克,搭载第二代全像素双核AF系统,精准追踪人眼与运动主体。覆盖Vlog、人像、风光、赛事等多场景创作,结合6000元级高性价比定位,成为兼顾专业创作与日常记录的理想选择。

今日大家都在搜的词: