国产显卡动作神速！摩尔线程全面支持DeepSeek开源周成果

2025-03-02 13:52 · 稿源：快科技

快科技3月2日消息，日前摩尔线程宣布，随着DeepSeek开源周收官，摩尔线程在短时间内，成功实现对DeepSeek各个开源项目的全面支持，涵盖FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer文件系统（3FS）。

摩尔线程表示，这一成果充分验证了MUSA架构和全功能GPU在生态兼容与快速适配方面的强大优势。

以下是摩尔线程支持DeepSeek开源周全家桶”代码合集：

FlashMLA：

FlashMLA是一款高效的MLA（Multi-Head Latent Attention）推理内核开源仓库，旨在加速MLA机制的计算，特别适用于DeepSeek系列模型（如DeepSeek-V2、V3和R1）。

摩尔线程基于全新MUSA Compute Capability 3.1计算架构，可提供原生FP8计算能力，同时升级了高性能线性代数模板库MUTLASS，快速支持了FlashMLA。

借助MUTLASS 0.2.0，摩尔线程发布开源仓库MT-FlashMLA，能够快速对DeepSeek FlashMLA进行兼容部署。

MT-FlashMLA开源地址：

https://github.com/MooreThreads/MT-flashMLA

MUTLASS FlashAttention3地址：

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

DeepEP：

DeepEP是一个用于MoE（混合专家）模型训练和推理的开源EP（expert parallelism，专家并行）通信库，主要适用于大模型训练，特别是需要EP的集群训练。

它通过优化通信信道的使用率，显著提升了训练效率。摩尔线程基于MUSA Compute Capability 3.1全功能GPU，第一时间适配了DeepEP。

MT-DeepEP开源地址：

https://github.com/MooreThreads/MT-DeepEP

DeepGEMM：

DeepGEMM是一个支持密集矩阵与混合专家（MoE）矩阵乘法的FP8 GEMM库，为V3/R1的训练与推理提供强大动力。

这个开源仓库基于高性能通用矩阵乘法（GEMM）的C 模板库进行开发，摩尔线程基于MUTLASS在全新GPU架构上优化实现了FP8矩阵乘法，支持DeepGEMM的相应功能。

MUTLASS FP8 GEMM地址：

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

DualPipe：

DualPipe是DeepSeek-V3提出的双向流水线并行算法，通过前向计算与后向计算阶段的计算与通信完全重叠，显著减少了流水线气泡”（设备空闲等待）。

与传统流水线并行相比，DualPipe 采用双向数据流设计，使数据从两端相向处理，大幅提升了资源利用率与训练效率。

摩尔线程依托深度学习框架Torch-MUSA（已开源）和MUSA软件栈全方位的兼容性，实现了对DualPipe这一算法的高效支持。

MT-DualPipe可以完整接入摩尔线程 MT-Megatron框架和MT-TransformerEngine框架（即将开源），实现DeepSeek V3训练流程的完整复现。

MT-DualPipe开源地址：

https://github.com/MooreThreads/MT-DualPipe

Torch-MUSA开源地址：

https://github.com/MooreThreads/Torch_MUSA

3FS：

Fire-Flyer文件系统（3FS）是一种利用现代SSD和RDMA网络的全部带宽的并行文件系统，可以把固态硬盘的带宽性能利用到极致。

摩尔线程在一天内完成了高性能分布式文件系统3FS的搭建，并高效开发了存储插件，成功实现与夸娥智算集群的无缝集成，为AI训练、AI推理、科学计算等场景提供全栈存储加速方案。

3FS CSI Driver地址：

https://github.com/MooreThreads/csi-driver-3fs

（举报）

相关推荐

关键词：

DeepSeek：已对AI生成合成内容添加标识用户不得恶意删除

今天下午，DeepSeek发布了《关于AI生成合成内容标识的公告》。公告中称，Deepseek始终高度重视AI的安全问题，已在平台内对AI生成合成内容添加标识，并明确提醒用户相关内容由AI生成。此举为贯彻落实《人工智能生成合成内容标识办法》（2025年9月1日起施行）及《网络安全技术人工智能生成合成内容标识方法》等国家标准的相关要求，防止AI生成内容可能引发的公众混淆、�

AI生成内容 DeepSeek公告合成内容标识
免费使用！腾讯地图已接入DeepSeek-V3.1

DeepSeek V3.1于2025年8月21日发布并开源，腾讯地图率先完成接入。新版AI助手“AI叮当”在三大核心能力显著提升：思考效率更高，响应更快；上下文理解更强，支持多轮连贯对话；智能体调用更精准，尤其在中文网页理解和跨领域搜索方面表现突出。依托升级，AI叮当可提供个性化行程规划、周边推荐及景点知识问答等智能出行服务，让导航升级为全程智能生活陪伴。

DeepSeek V3.1 腾讯地图
Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比：谁在性价比上更胜一筹？

面对琳琅满目的大模型API，开发团队常陷入选择困境。文章指出，2024年既是机遇也是挑战的时代，闭源模型选择丰富但性能与成本平衡复杂。通过AIbase等数据驱动平台进行客观对比至关重要。以Gemini 2.5 Flash-Lite和DeepSeek-V3为例，前者综合能力强适合多语言场景，后者在代码生成和成本控制上优势明显。建议开发者明确需求，通过实际测试验证模型表现，理性选择最适合的方案。

大模型API 模型选型 AI开发
Google Gemini vs Deepseek：谁更适合你的业务场景？AI大模型选型终极对比指南

企业在选择大模型时面临两难：国际大厂的Gemini技术先进，但国内DeepSeek性价比突出。AIbase平台通过真实场景测试数据指出：1）跨境电商客服场景中，Gemini多语言识别准确率提升12%，但需注意API延迟问题；2）金融研报分析场景下，DeepSeek支持128K长文本且成本仅为Gemini的1/3。决策关键：抛开参数迷雾，聚焦成本、响应速度、语言支持和场景匹配四大维度。AIbase提供可视化对比工具，3分钟生成专属选型报告，让技术决策不再玄学。

大模型选型 Gemini对比DeepSeek LLM评测
2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架，强调需超越单一指标崇拜，基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析，展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程，采用专业工具进行多维度评估，通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型，而非盲目追求流行模型。
别再猜了！手把手教你用数据选择AI模型，我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

开发者分享模型选择心路历程：从盲目试错到数据驱动。曾因追求低价模型导致成本飙升，后通过AIbase平台对比Gemini 2.5 Flash-Lite和DeepSeek-V3，基于价格、上下文长度和代码能力等数据，最终选择更适合代码生成任务的DeepSeek-V3。强调没有“最好”的模型，只有“最适合”的模型，建议开发者善用专业工具进行数据驱动决策，避免隐性成本。
荐AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；快手 Klear-Reasoner 模型成功登顶

AI日报栏目聚焦人工智能领域最新动态。DeepSeek V3.1发布，大幅增强长文档分析和代码理解能力；企业微信5.0集成智能搜索、总结和机器人功能；快手Klear-Reasoner模型数学推理准确率超90%；谷歌Docs新增AI语音朗读功能；Firecrawl完成1450万美元融资并推出V2版本API；Meta上线AI语音翻译功能；微软Excel集成Copilot实现一键数据分析；Claude桌面客户端推动AI编程可视化；苹果Xcode将原生集成Cl

AI DeepSeek V3.1
甲亢哥在美国疑因涉嫌超速被捕被戴上手铐大声喊冤“Speed只是我的名字”

近日，千万网红甲亢哥在美国正直播时，疑因涉嫌超速被捕。据报道，事发时，甲亢哥正在佛罗里达州直播，他被捕全程被观众目睹。据视频画面，在被捕过程中，他被警方拦下，并戴上手铐大声喊冤称Speed只是我的名字”，期间还解释喊冤称自己并未超速，也不开车。不过，很快就有网友质疑，这又是在炒作。有网友发现逮捕时执法人员”也没按流程没收设备，分析逮�

甲亢哥被捕直播被捕超速事件
荐智能体迎来“DeepSeek时刻”，为何主角是纳米AI？

大模型重塑了人工智能的产业格局，但却没有彻底颠覆人类的生产模式。在这背后，并非其技术力量不足，而是当前的应用形态仍停留在“工具赋能”的初级阶段，大模型的潜力被束缚在碎片化场景中，未能转化为重构生产逻辑的核心动能。正如360集团创始人、董事长周鸿祎所言，大模型的能力其实已经相当强大，甚至超越了我们中的许多人。只是其潜力尚未被挖掘。而�

大模型人工智能生产模式
DeepSeek崩了引热议官方深夜回应：网页/API已恢复

8月11日，DeepSeek服务突遭全面宕机，API接口、网页平台以及App均无法访问或响应。许多网友也通过微博话题#DeepSeek崩了#反馈服务异常。

DeepSeek宕机 AI大模型服务恢复

今日大家都在搜的词：

热文

3 天
7天

国产显卡动作神速！摩尔线程全面支持DeepSeek开源周成果

DeepSeek：已对AI生成合成内容添加标识用户不得恶意删除

免费使用！腾讯地图已接入DeepSeek-V3.1

Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比：谁在性价比上更胜一筹？

Google Gemini vs Deepseek：谁更适合你的业务场景？AI大模型选型终极对比指南

2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

别再猜了！手把手教你用数据选择AI模型，我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

荐AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；快手 Klear-Reasoner 模型成功登顶

甲亢哥在美国疑因涉嫌超速被捕被戴上手铐大声喊冤“Speed只是我的名字”

荐智能体迎来“DeepSeek时刻”，为何主角是纳米AI？

DeepSeek崩了引热议官方深夜回应：网页/API已恢复

今日大家都在搜的词：

热文

AI日报：拍我AI接入Nano Banana；腾讯智影暂停服务；京东自研京

全新问界M7开售1小时订单破10万售价28.8万元起

vivo Y500开售：售价1399元起配备8200mAh电池

淘宝：将公益拍卖102套马云签名骑士制服

真我15系列官宣9月16日发布号称夜拍神器

一加和哈苏合作关系结束一加15将全球首发自研影像引擎

三星Galaxy Tab S11 Ultra平板发布：天玑9400+ 售价8999元起

联发科辟谣被英伟达收购：不实消息不是真的

雷军第90次健身房打卡距离健身目标仅剩10次

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

华为发布首款MateTV：超薄设计搭载旗舰性能 8999元起预售

AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列

三大运营商回应是否支持eSIM版iPhone：需等待通知

人去世了朋友圈会消失？微信客服回应：建议保持账号活跃

OPPO A6 Pro定档 9 月 9 日发布：开启手机六年耐用新时代

腾讯回应被米哈游起诉：没正式程序不能违规提供QQ用户资料

AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects

AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台

站长商机