首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

开源大模型训练框架Megatron-LLaMA来了 32卡训练可加速176%

2023-09-12 15:06 · 稿源:站长之家

要点:

  • 淘天集团联合爱橙科技正式对外开源大模型训练框架Megatron-LLaMA,以提高大语言模型训练性能,降低训练成本。

  • 测试显示,相比HuggingFace代码,Megatron-LLaMA在32卡训练上获得176%的加速;在大规模训练上表现出几乎线性的扩展性。

  • Megatron-LLaMA已在GitHub开源,将持续关注社区发展,与开发者共同推进自适应配置、更多模型支持等方向。

站长之家(ChinaZ.com)9月12日 消息:9月12日,淘天集团联合爱橙科技正式对外开源大模型训练框架Megatron-LLaMA,以让技术开发者们更方便地提升大语言模型训练性能,降低训练成本。

据悉,Megatron-LLaMA是一个基于Megatron-LM的分布式深度学习训练框架,专门用于大规模语言模型LLaMA的训练。LLaMA已经成为开源社区中最杰出的大规模语言模型之一,它集成了BPE词元化、预规范化、旋转嵌入、SwiGLU激活函数、RMSNorm和非绑定嵌入等多项优化技术,在客观和主观评价中都展现出卓越的结果。

image.png

项目地址:https://github.com/alibaba/Megatron-LLaMA

LLaMA开发了7B、13B、30B和65B/70B多个模型规模的版本。在开源社区中,也出现了许多基于LLaMA的成功变体,无论是通过连续训练/监督微调还是从零开始训练,都进一步证明了LLaMA在长上下文理解、长上下文生成、代码编写、数学问题求解、工具使用等任务上的卓越能力。

然而,由于大规模语言模型的训练或微调都需要强大的计算资源,开发者自己尝试在LLaMA上实现新的设计往往非常昂贵。Megatron-LM是一个集成了张量并行、流水线并行和序列并行的分布式训练解决方案,可以在训练具有数百亿参数的模型时充分利用硬件资源,使资源利用率远高于基于Huggingface和DeepSpeed实现的公开版LLaMA。但是,原生的Megatron-LM在极大规模下会遭受分布式优化器的通信瓶颈。

测试显示,相比HuggingFace直接获得的代码,Megatron-LLaMA在32卡训练上获得176%的加速效果。在大规模训练上,Megatron-LLaMA相对原生Megatron-LM有几乎线性的扩展性,且对网络稳定性表现出高容忍度。

Megatron-LLaMA改进了DistributedOptimizer的梯度聚合机制,实现梯度通信与计算的并行,从而优化了反向传播流程。

当前Megatron-LLaMA已在GitHub上开源,淘天集团和爱橙科技将共同维护,并积极关注社区发展,与开发者们在自适应配置选择、模型支持等方面进行合作,以推动Megatron和LLaMA生态建设。

Megatron-LLaMA的主要特点如下:

  • 在Megatron-LM中实现了标准的LLaMA,可以按需配置其中的优化技术。未来还将支持Alibi和FlashAttention2等特性。

  • 通过实现高度重叠的通信和计算,提升了通信计算并行性,与DeepSpeed ZeRO Stage2类似,大大减少了GPU内存占用,提高了吞吐量。

  • 提供了分布式检查点保存/恢复等实用工具,加速了训练过程,支持与HDFS等分布式文件系统集成;支持与HuggingFace transformers库的tokenizer集成,方便下游任务迁移。

Megatron-LLaMA使LLaMA模型的大规模训练变得快速、经济高效且具备可扩展性。它降低了训练大模型的门槛,是开源社区一个重要的贡献。

举报

  • 相关推荐
  • 苦等一年 Meta终于放大招 正式发布开源大模型Llama 4

    美国科技巨擘Meta重磅推出其迄今最为强大的开源AI模型Llama4,恰逢Llama3上市一周年之际。Llama4系列采用了先进的混合专家架构,这一架构在模型训练及用户查询回答过程中展现出更高效率,通过将模型划分为多个专注于特定任务的专家”子模型,实现精准高效的处理。Meta首席执行官扎克伯格表示:他们的目标是建立世界领先的人工智能,将其开源,并使其普遍可用,以便世界上每个人都能受益。

  • Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

    被寄予厚望的美国Meta公司的最新开源大模型Llama4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。大模型评测平台LMArena亲自下场发文,打脸Meta提供给平台的Llama4是“特供版”。Meta若继续在商业控制与技术开放之间摇摆,恐将在AI竞赛中进一步失去开发者支持。

  • Meta说他们的 Llama 4 偏见少了!但,“虚假对等”才是真偏见

    Meta公司称,相比之前的版本,他们最新的人工智能模型Llama4的政治偏见更少了。其中一部分便是通过允许该模型回答更多带有政治争议性的问题来实现这一点的。下次当你使用Meta的AI产品时,它可能会为“通过服用马用镇静剂来治疗新冠病毒”这种观点说好话!

  • 实锤了,Llama 4重测排名掉至32名!远不及DeepSeek和Qwen

    LMArena更新了Meta最新发布的开源大模型Llama-4-Maverick的排名,从此前的第2名,直线掉到了第32名!这也实锤了此前开发者对Meta为刷榜排名向LMArena提供了“特供版”的Llama4大模型的质疑。开源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名为32名,远低于Gemini2.5Pro、GPT4o、DeepSeek-V3-0324、DeepSeek-R1、Qwen2.5-Max,甚至连英伟达基于上一代Llama3.3改造的Llama-3.3-Nemotron-Super-49B-v1都不如。

  • 反击DeepSeek失败!Llama 4效果不好,Meta承认有问题

    今天凌晨1点半,Meta生成式AI领导者AhmadAl-Dahle在社交平台发布了一篇长文,对前天刚开源的Llama4质疑进行了官方回应。Ahmad表示,Llama4一开发完就发布了,所以,不同服务中模型质量难免会有一些差异。由于关税大战的原因,Meta的股票遭遇重创,他们也需要一个利好消息来拉升股票,现在适得其反。

  • 刚刚,Llama 4深夜开源击败DeepSeek V32万亿多模态巨兽抢回王座

    Llama4重磅发布了!Meta官宣开源首个原生多模态Llama4,首次采用的MoE架构,支持12种语言,首批发布一共两款:Llama4Scout:共有1090亿参数,17B活跃参数,16个专家,1000万上下Llama4Maverick:共有4000亿参数,17B活跃参数,128个专家,100万上下文另外,2万亿参数Llama4Behemoth将在未来几个月面世,288B活跃参数,16个专家。Llama4的横空出世,成为迄今为止开源最强,多模态能力最好的模型之一。L

  • 英伟达开源15T数据集:32万个机器人训练轨迹

    全球AI领导者英伟达开源了,用于实体机器人和自动化驾驶的超大训练数据合集——NVIDIAPhysicalAIDataset。这个数据集一共15T,涵盖了超过320,000个机器人训练轨迹,以及多达1,000个通用场景描述包括一个SimReady集合。英伟达表示,未来将继续扩展PhysicalAIDataset,将其建设成世界最大、统一的开源数据集,可用于AI模型、医疗、自动化驾驶等不同领域,加速AI、实体机器人的训练效�

  • Llama 4五大疑点曝光,逐层扒皮,全球AI进步停滞,NYU教授称Scaling彻底结束

    令人失望的Llama4,只是前奏已。接下来我们恐将看到——全球局势的改变,将彻底阻止AI进步!最近,一位AICEO做出长视频,逐级对Llama4身上的六大疑点进行了扒皮。GaryMarcus正在寻找对开发更可靠替代方法有兴趣的投资者。

  • 何小鹏“剧透”:小鹏训练的一个物理大模型 是国内车企“独一份”

    快科技4月14日消息,今日早间,小鹏汽车创始人何小鹏在社交平台发帖称:作为最早把「智能化」作为核心的车企,小鹏的本质是「AI汽车公司」,我认为AI 最大的价值在于改变物理世界,而不仅是数字世界,我们要做一家面向全球的AI汽车公司,我更想通过 AI 来改变物理世界,这是很有意义的,但难度也更大。小鹏坚持全栈自研,去年率先在自动驾驶领域引入强化学习、模型

  • 字节AI加速文生图技术新突破,GOOG/微美全息引领开源大模型释放科技势能

    字节跳动发布豆包1.5深度思考模型,升级文生图能力。该模型在专业领域和通用任务中表现突出,采用MoE架构,总参数量200B,激活参数20B,推理成本优势显著。同时,其图像生成模型Seedream 3.0性能追平GPT-4o等顶尖模型。全球AI产业加速发展,开源模型降低技术门槛,推动商业化落地。微美全息等企业构建开放AI生态,DeepSeek等公司通过开源策略促进技术普惠。行业迎来"开源AI+"新阶段,企业需把握机遇应对挑战。