首页 > 业界 > 关键词  > 摩尔线程最新资讯  > 正文

国产显卡动作神速!摩尔线程全面支持DeepSeek开源周成果

2025-03-02 13:52 · 稿源: 快科技

快科技3月2日消息,日前摩尔线程宣布,随着DeepSeek开源周收官,摩尔线程在短时间内,成功实现对DeepSeek各个开源项目的全面支持,涵盖FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer文件系统(3FS)。

摩尔线程表示,这一成果充分验证了MUSA架构和全功能GPU在生态兼容与快速适配方面的强大优势。

以下是摩尔线程支持DeepSeek开源周全家桶”代码合集:

FlashMLA:

FlashMLA是一款高效的MLA(Multi-Head Latent Attention)推理内核开源仓库,旨在加速MLA机制的计算,特别适用于DeepSeek系列模型(如DeepSeek-V2、V3和R1)。

摩尔线程基于全新MUSA Compute Capability 3.1计算架构,可提供原生FP8计算能力,同时升级了高性能线性代数模板库MUTLASS,快速支持了FlashMLA。

借助MUTLASS 0.2.0,摩尔线程发布开源仓库MT-FlashMLA,能够快速对DeepSeek FlashMLA进行兼容部署。

MT-FlashMLA开源地址:

https://github.com/MooreThreads/MT-flashMLA

MUTLASS FlashAttention3地址:

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

DeepEP:

DeepEP是一个用于MoE(混合专家)模型训练和推理的开源EP(expert parallelism,专家并行)通信库,主要适用于大模型训练,特别是需要EP的集群训练。

它通过优化通信信道的使用率,显著提升了训练效率。摩尔线程基于MUSA Compute Capability 3.1全功能GPU,第一时间适配了DeepEP。

MT-DeepEP开源地址:

https://github.com/MooreThreads/MT-DeepEP

DeepGEMM:

DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,为V3/R1的训练与推理提供强大动力。

这个开源仓库基于高性能通用矩阵乘法(GEMM)的C 模板库进行开发,摩尔线程基于MUTLASS在全新GPU架构上优化实现了FP8矩阵乘法,支持DeepGEMM的相应功能。

MUTLASS FP8 GEMM地址:

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

DualPipe:

DualPipe是DeepSeek-V3提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了流水线气泡”(设备空闲等待)。

与传统流水线并行相比,DualPipe 采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率与训练效率。

摩尔线程依托深度学习框架Torch-MUSA(已开源)和MUSA软件栈全方位的兼容性,实现了对DualPipe这一算法的高效支持。

MT-DualPipe可以完整接入摩尔线程 MT-Megatron框架和MT-TransformerEngine框架(即将开源),实现DeepSeek V3训练流程的完整复现。

MT-DualPipe开源地址:

https://github.com/MooreThreads/MT-DualPipe

Torch-MUSA开源地址:

https://github.com/MooreThreads/Torch_MUSA

3FS:

Fire-Flyer文件系统(3FS)是一种利用现代SSD和RDMA网络的全部带宽的并行文件系统,可以把固态硬盘的带宽性能利用到极致。

摩尔线程在一天内完成了高性能分布式文件系统3FS的搭建,并高效开发了存储插件,成功实现与夸娥智算集群的无缝集成,为AI训练、AI推理、科学计算等场景提供全栈存储加速方案。

3FS CSI Driver地址:

https://github.com/MooreThreads/csi-driver-3fs

举报

  • 相关推荐
  • 突发!DeepSeek开源新版V3,再次震惊国外

    国内著名大模型平台DeepSeek开源了V3模型的最新版本0324。不过DeepSeek相当低调,国内的公众号、国外的社交平台没有做任何宣传,就是“悄悄”地把模型上传到huggingface。根据国外开源评测平台kcores-llm-arena对V3-0324最新测试数据显示,其代码能力达到了328.3分,超过了普通版的Claude3.7Sonnet,可以比肩334.8分的思维链版本。

  • 字节和DeepSeek争抢“天才少年”

    当年轻人还在想着怎么靠AI赚钱时,AI已经开始帮助老板提升身家了。近期胡润研究院发布的《2025胡润全球富豪榜》显示,字节跳动创始人张一鸣取代“瓶装水大王”钟睒睒,成为中国新首富。对当下的字节和张一鸣言,如果靠砸钱就能解决大模型的技术突破难题,那无疑将是一笔划算的投资。

  • 开源才是未来!李开复:DeepSeek证明闭源是一条死路

    日前,在2025中关村论坛年会人工智能主题日上,零一万物CEO李开复在演讲中谈到了DeepSeek。李开复表示,DeepSeek是一个非常快速能达到推理引擎思考的不是靠蒸馏是本质上做出来的,它还把思维链公开了,这个是非常震惊的,因为OpenAI隐藏了它的思维链,就怕别人学会了。5个开源代码库覆盖AI开发的核心环节从硬件性能压榨、模型训练优化到数据处理提速,目标是让开发者开箱即用,降低技术门槛和成本,让开发者能够更高效、低成本、广泛地使用大模型。

  • DeepSeek红利耗尽后,元宝拿什么和豆包斗?

    短短60天内,中国AI原生应用下载排行榜的位次排名,就三易其主。最新情况是,截至4月15日中午,中国区苹果应用商店免费APP下载排行榜上,豆包再次超越DeepSeek,位列第二,紧随其后的DeepSeek被挤到了第三的位置,腾讯元宝则滑落到了第七名。2月13日,作为首家在C端主力产品中接入DeepSeek-R1满血版的元宝,一度趁着DeepSeek东风崛起:3月3日力压DeepSeek和豆包,首度登顶。但好景�

  • DeepSeek的极致谄媚,正在摧毁我们的判断力。

    昨天别人给我发了一个很好玩的帖子。就是如果你问DeepSeek一个问题:“北京大学和清华大学哪个更好,二选一,不需要说明理由”DeepSeek在思考了15秒之后,会给出答案。

  • AI进化论——音乐、绘画和舞蹈的DeepSeek时刻

    “昔者仓颉作书天雨粟,鬼夜哭”——人类掌握文字后,天地为之动容,因为属于人类的文明诞生了。“仓颉作书”出自西汉《淮南子》,距离人类掌握文字已经过去了千年。AI进化的答案,或许早就镌刻在人类文明的起点里。

  • 刘慈欣谈DeepSeek:完有可能替代科幻小说作家

    日前,2025中国科幻大会在北京举办,主题为科学梦想创造未来”。在大会论坛上,科幻作家刘慈欣谈到了DeepSeek对科幻文学的驱动和发展。刘慈欣被誉为中国科幻的领军人物,其作品三体三部曲”是中国科幻文学的里程碑之作,将中国科幻推上了世界的高度。

  • DeepSeek时代:六小虎向左,BAT向右

    相比BAT等大厂可以卸下心理包袱,选择自研与开源两条腿走路的路线,以智谱为代表的“六小虎”们,则必须押注在自家大模型的底层技术能力上。DeepSeek给AI大模型行业,免费赠送了一波国民级别的市场教育,却也平等地在先行者们头上,悬起了一把达摩克利斯之剑。当熬过了冬天,春天就不会远了。

  • DeepSeek领航大模型普惠化浪潮,xAI/微美息加速开源AI布局打造新格局

    DeepSeek 作为当前最受关注的大模型之一,凭借其技术创新正在加速 AI 普惠化进程。根据机构新报告显示,DeepSeek已经成为全球增长最快的AI工具,其每月新增网站访问量已经超过OpenAI的ChatGPT。DeepSeek市场份额全球第三目前,DeepSeek市场份额6.58%,仅次于ChatGPT和Canva。DeepSeek是继ChatGPT之后的又一现象级AI产品,它的市场份额从2.34%快速增长至6.58%,展现出强劲的增长态势。全球著名�

  • 快手磁力开创接入DeepSeek,AIGC广告素材大赛同步开启

    不断升级的AI技术正在商业领域释放巨大潜力。快手磁力开创全面接入DeepSeek-R1满血版模型,以AI能力跃升赋能视频创意生产,并同步开启AIGC广告素材大赛,携手更多品牌探索AI创意内容生产、提升商业经营效率。2025年磁力大会将于3月31日在湖南长沙召开,届时,快手磁力引擎将带来更多AI助力商业经营提效的产品以及行业解决方案,赋能品牌全链路提效,抓住AI时代商业增长新机遇。