DeepSeek开源周第六天：极致推理优化系统，提高GPU计算效率

2025-03-03 09:45 · 来源： AIbase基地

在人工智能（AI）技术快速发展的今天，DeepSeek 团队推出了其全新的 DeepSeek-V3/R1推理系统。这一系统旨在通过更高的吞吐量和更低的延迟，推动 AGI(通用人工智能)的高效发展。为了实现这一目标，DeepSeek 采用了跨节点专家并行(Expert Parallelism，EP)技术，显著提高了 GPU 的计算效率，并在降低延迟的同时，扩展了批处理规模。

DeepSeek-V3/R1的核心在于其极高的稀疏性，模型中每层仅激活256个专家中的8个，因此需要非常大的批处理大小，以确保每个专家都有足够的处理能力。该系统的架构采用了预填充解码解聚（prefill-decode disaggregation）的方法，在预填充和解码阶段采用不同程度的并行化策略。

在预填充阶段，系统通过双批次重叠策略来隐藏通信成本，这意味着在处理一批请求时，另一批的通信成本可以被计算过程所掩盖，从而提升了整体吞吐量。而在解码阶段，针对不同执行阶段的时间不平衡问题，DeepSeek 采用了五级流水线的方式，实现了无缝的通信与计算重叠。

为了应对大规模并行性所带来的负载不均问题，DeepSeek 团队设立了多个负载均衡器。这些负载均衡器致力于在所有 GPU 之间平衡计算和通信负载，避免某一单一 GPU 因超负荷运算而成为性能瓶颈，确保资源的高效利用。

在服务性能方面，DeepSeek-V3/R1推理服务在 H800GPU 上运行，使用的矩阵乘法和传输格式与训练过程保持一致。根据最新的统计数据，系统在过去24小时内处理了6080亿个输入令牌，最高节点占用率达278，日均占用率为226.75，整体服务表现良好。

DeepSeek-V3/R1推理系统通过高效的架构设计和智能的负载管理，不仅提升了人工智能模型的推理性能，也为未来的 AGI 研究与应用提供了强有力的基础设施支持。

项目:https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md

划重点:
🌟 DeepSeek-V3/R1推理系统通过跨节点专家并行技术，实现更高的吞吐量和更低的延迟。
📊 采用双批次重叠策略与五级流水线，提升计算效率并优化通信过程。
🔄 设立多种负载均衡器，确保 GPU 间的资源高效利用，避免性能瓶颈。

相关推荐

DeepSeek-V3.2-Exp正式发布

DeepSeek于9月30日正式发布实验性模型DeepSeek-V3.2-Exp，该模型基于V3.1-Terminus升级，引入创新的稀疏注意力机制DSA，首次实现细粒度稀疏注意力，在保持模型输出效果的同时显著提升长文本训练和推理效率。测试显示其表现与V3.1-Terminus基本持平。应用层面，官方App、网页端及小程序均已同步更新。同时宣布API价格大幅调整：输入缓存0.2元、输入未缓存2元、输出3元，开发者调用成本降低50%以上。模型已在HuggingFace和魔搭开源平台上线。

DeepSeek-V3.2-Exp 稀疏注意力机制 DSA
强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

2025年9月29日，深度求索公司发布新一代模型架构DeepSeek-V3.2，引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本，在V3.1-Terminus基础上引入稀疏注意力机制，优化长文本训练和推理效率。目前官方应用端已同步更新，API大幅降价。此次模型体积达671GB，下载需8-10小时。业内专家指出，此次快速适配表明双方早有深度技术协�

DeepSeek-V3.2 大模型架构稀疏注意力机制
荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

本期AI日报聚焦多项技术突破：DeepSeek发布V3.2-exp模型，通过稀疏注意力机制降低API成本50%；Anthropic推出Claude Sonnet 4.5，在编码任务表现卓越；ChatGPT新增即时结账功能，实现对话界面直接购物；OpenAI将推出AI版TikTok，所有内容由Sora2模型生成；百度地图升级小度想想2.0，提供智能出行服务；蚂蚁集团开源万亿参数模型Ring-1T-preview；DeepMind提出“帧链”概念，推动视频模型实现全面�

AI DeepSeek 稀疏注意力
荐AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

本期AI日报聚焦多领域技术突破：京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”，推动物流行业迈向自主执行；DeepSeek推出V3.1终结版，修复漏洞并为V4架构铺路；Kimi上线Agent模式“OK Computer”，支持智能网站开发等复杂任务；ChatGPT新增个性化资讯功能，定制用户专属新闻；Exa Code发布代码索引工具，助力AI代理精准生成代码；Meta推出AI视频创作平台Vibes，简化短视频制作；蚂蚁数科发布隐私保护AI框架Gibbon，推理速度提升超百倍；OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平，覆盖九大行业44种职业。

京东物流超脑大模型2.0 异狼具身智能机械臂系统
DeepSeek更新至V3.1 Terminus版本：两大升级

9月22日，深度求索宣布DeepSeek V3.1已更新至Terminus版本，官方App、网页端、小程序与API模型同步升级。本次更新在保持模型原有能力基础上，针对用户反馈进行改进：优化语言一致性，缓解中英文混杂、异常字符等问题；提升Code Agent与Search Agent表现。官方表示新版本输出效果更稳定，各领域评测表现优异。开源版本已在Hugging Face和ModelScope平台发布。

DeepSeek V3.1 Terminus版本
破解 AI “安全与性能” 难题！DeepSeek-R1-Safe 基础大模型在华为全联接大会2025正式发布

9月18日，华为全联接大会2025在上海开幕。会上，华为与浙江大学联合发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型。该模型在安全防护能力上表现突出，对有害言论、敏感内容等14个维度的防御成功率近100%，同时通用能力测试性能损耗控制在1%以内。双方表示将继续深化合作，推动AI安全技术与产业生态协同发展，为我国人工智能高质量发展提供支撑。

华为全联接大会 DeepSeek-R1-Safe 昇腾千卡算力平台
云天励飞“算力积木”联手OISA，突破万亿级MoE大模型推理集群的Scale up瓶颈

云天励飞近日加入OISA生态，携手产业伙伴共建国产AI芯片互联体系，为中国算力生态注入新动力。OISA是中国移动提出的开放互联标准体系，旨在打造全向、对等、智能的互联新范式，解决智算集群内存互访难题，为大规模并行计算提供技术基石。云天励飞凭借在AI芯片与算力架构的长期积累，将依托“算力积木”架构的模块化优势，在大规模推理集群中实现高效互联，助力突破万级MoE大模型推理瓶颈，推动国产算力生态发展。

云天励飞 OISA生态 AI芯片互联
900P大考见真章：天玑9500 GPU强度封神

9月手机市场迎来A19 Pro、天玑9500、骁龙8 Gen 5三款旗舰芯片。今年最大变化是零售机数据提前公开，参考价值直线上升。游戏负载持续加重，《星穹铁道》分辨率已冲至900P+，对手机GPU架构与能效提出更高要求。天玑9500在GPU能效表现亮眼，极客湾测试中一骑绝尘，3DMark实测性能与能效曲线均压制当代旗舰。联发科GPU硬实力已成“基操”，稳定高画质与低功耗兼顾。建议购机前优先查看零售机实测数据，期待更多实测帮助用户稳妥选择。选机看真功夫，把游戏稳帧交给天玑9500。

A19Pro 9500 8E5
一图看懂OPPO Find X9系列影像系统 OPPO周意保：画质革命

OPPO Find X9系列9月29日官宣影像系统，负责人周意保称将掀起移动影像画质革命。该系列在五大技术上突破：AOA主动光学校准、第四代徕卡色彩还原镜头、瞬时三曝光、满血版LYT-828传感器、LUMO超像素引擎并行异构计算，并首发3nm算力芯片。支持哈苏2亿像素直出、全焦段8K超清照片、4K超清实况照片及小红书分享链路。针对旅拍优化人像拍摄，配备专业增距镜等配件。视频支持4K 120fps杜比视界HDR、10bit Log格式及哈苏大师影调。10月16日发布，值得期待。

OPPO Find X9
AI排名查询工具如何助力GEO优化？生成引擎优化中的关键词竞争力分析

在AI搜索时代，传统SEO正被生成引擎优化（GEO）重塑。内容能否被AI“理解”并引用成为流量关键，而GEO策略需依赖专门的AI排名查询工具。文章指出，AI助手直接生成摘要而非链接列表，评估维度与SEO完全不同，需关注语义相关性、权威性和结构化程度。AIBase平台的GEO排名查询工具能模拟主流AI提问，检测内容曝光频率与上下文位置，支持竞品对比和中文场景优化。优化建议包�

GEO策略 AI排名查询生成式AI

今日大家都在搜的词：

热文

3 天
7天

DeepSeek开源周第六天：极致推理优化系统，提高GPU计算效率

DeepSeek-V3.2-Exp正式发布

强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

荐AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

DeepSeek更新至V3.1 Terminus版本：两大升级

破解 AI “安全与性能” 难题！DeepSeek-R1-Safe 基础大模型在华为全联接大会2025正式发布

云天励飞“算力积木”联手OISA，突破万亿级MoE大模型推理集群的Scale up瓶颈

900P大考见真章：天玑9500 GPU强度封神

一图看懂OPPO Find X9系列影像系统 OPPO周意保：画质革命

AI排名查询工具如何助力GEO优化？生成引擎优化中的关键词竞争力分析

今日大家都在搜的词：

热文

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

比特币价格突破12.5万美元刷新历史最高纪录

小米回应“小米汽车突然自己开走”：排除车辆质量问题

小米17 1TB版明日开售售价5299元

雷军：小米17系列开售仅5天销量破100万台

腾讯混元图像3.0登顶LMArena榜一

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

站长商机