首页 > AI头条  > 正文

DeepSeek开源周第六天:极致推理优化系统,提高GPU计算效率

2025-03-03 09:45 · 来源: AIbase基地

在人工智能(AI)技术快速发展的今天,DeepSeek 团队推出了其全新的 DeepSeek-V3/R1推理系统。这一系统旨在通过更高的吞吐量和更低的延迟,推动 AGI(通用人工智能)的高效发展。为了实现这一目标,DeepSeek 采用了跨节点专家并行(Expert Parallelism,EP)技术,显著提高了 GPU 的计算效率,并在降低延迟的同时,扩展了批处理规模。

QQ_1740966278224.png

DeepSeek-V3/R1的核心在于其极高的稀疏性,模型中每层仅激活256个专家中的8个,因此需要非常大的批处理大小,以确保每个专家都有足够的处理能力。该系统的架构采用了预填充解码解聚(prefill-decode disaggregation)的方法,在预填充和解码阶段采用不同程度的并行化策略。

在预填充阶段,系统通过双批次重叠策略来隐藏通信成本,这意味着在处理一批请求时,另一批的通信成本可以被计算过程所掩盖,从而提升了整体吞吐量。而在解码阶段,针对不同执行阶段的时间不平衡问题,DeepSeek 采用了五级流水线的方式,实现了无缝的通信与计算重叠。

为了应对大规模并行性所带来的负载不均问题,DeepSeek 团队设立了多个负载均衡器。这些负载均衡器致力于在所有 GPU 之间平衡计算和通信负载,避免某一单一 GPU 因超负荷运算而成为性能瓶颈,确保资源的高效利用。

QQ_1740966256161.png

在服务性能方面,DeepSeek-V3/R1推理服务在 H800GPU 上运行,使用的矩阵乘法和传输格式与训练过程保持一致。根据最新的统计数据,系统在过去24小时内处理了6080亿个输入令牌,最高节点占用率达278,日均占用率为226.75,整体服务表现良好。

QQ_1740966237834.png

DeepSeek-V3/R1推理系统通过高效的架构设计和智能的负载管理,不仅提升了人工智能模型的推理性能,也为未来的 AGI 研究与应用提供了强有力的基础设施支持。

项目:https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md

划重点:

🌟 DeepSeek-V3/R1推理系统通过跨节点专家并行技术,实现更高的吞吐量和更低的延迟。  

📊 采用双批次重叠策略与五级流水线,提升计算效率并优化通信过程。  

🔄 设立多种负载均衡器,确保 GPU 间的资源高效利用,避免性能瓶颈。

  • 相关推荐
  • DeepSeek-V3.2-Exp正式发布

    DeepSeek于9月30日正式发布实验性模型DeepSeek-V3.2-Exp,该模型基于V3.1-Terminus升级,引入创新的稀疏注意力机制DSA,首次实现细粒度稀疏注意力,在保持模型输出效果的同时显著提升长文本训练和推理效率。测试显示其表现与V3.1-Terminus基本持平。应用层面,官方App、网页端及小程序均已同步更新。同时宣布API价格大幅调整:输入缓存0.2元、输入未缓存2元、输出3元,开发者调用成本降低50%以上。模型已在HuggingFace和魔搭开源平台上线。

  • 强强联手!深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

    2025年9月29日,深度求索公司发布新一代模型架构DeepSeek-V3.2,引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本,在V3.1-Terminus基础上引入稀疏注意力机制,优化长文本训练和推理效率。目前官方应用端已同步更新,API大幅降价。此次模型体积达671GB,下载需8-10小时。业内专家指出,此次快速适配表明双方早有深度技术协�

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • AI日报:京东物流推出超脑大模型2.0;DeepSeek V3.1终结版发布;Kimi 推出全新 Agent 模式

    本期AI日报聚焦多领域技术突破:京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”,推动物流行业迈向自主执行;DeepSeek推出V3.1终结版,修复漏洞并为V4架构铺路;Kimi上线Agent模式“OK Computer”,支持智能网站开发等复杂任务;ChatGPT新增个性化资讯功能,定制用户专属新闻;Exa Code发布代码索引工具,助力AI代理精准生成代码;Meta推出AI视频创作平台Vibes,简化短视频制作;蚂蚁数科发布隐私保护AI框架Gibbon,推理速度提升超百倍;OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平,覆盖九大行业44种职业。

  • DeepSeek更新至V3.1 Terminus版本:两大升级

    9月22日,深度求索宣布DeepSeek V3.1已更新至Terminus版本,官方App、网页端、小程序与API模型同步升级。本次更新在保持模型原有能力基础上,针对用户反馈进行改进:优化语言一致性,缓解中英文混杂、异常字符等问题;提升Code Agent与Search Agent表现。官方表示新版本输出效果更稳定,各领域评测表现优异。开源版本已在Hugging Face和ModelScope平台发布。

  • 破解 AI “安全与性能” 难题!DeepSeek-R1-Safe 基础大模型在华为全联接大会2025正式发布

    9月18日,华为全联接大会2025在上海开幕。会上,华为与浙江大学联合发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型。该模型在安全防护能力上表现突出,对有害言论、敏感内容等14个维度的防御成功率近100%,同时通用能力测试性能损耗控制在1%以内。双方表示将继续深化合作,推动AI安全技术与产业生态协同发展,为我国人工智能高质量发展提供支撑。

  • 云天励飞“算力积木”联手OISA,突破万亿级MoE大模型推理集群的Scale up瓶颈

    云天励飞近日加入OISA生态,携手产业伙伴共建国产AI芯片互联体系,为中国算力生态注入新动力。OISA是中国移动提出的开放互联标准体系,旨在打造全向、对等、智能的互联新范式,解决智算集群内存互访难题,为大规模并行计算提供技术基石。云天励飞凭借在AI芯片与算力架构的长期积累,将依托“算力积木”架构的模块化优势,在大规模推理集群中实现高效互联,助力突破万级MoE大模型推理瓶颈,推动国产算力生态发展。

  • 900P大考见真章:天玑9500 GPU强度封神

    9月手机市场迎来A19 Pro、天玑9500、骁龙8 Gen 5三款旗舰芯片。今年最大变化是零售机数据提前公开,参考价值直线上升。游戏负载持续加重,《星穹铁道》分辨率已冲至900P+,对手机GPU架构与能效提出更高要求。天玑9500在GPU能效表现亮眼,极客湾测试中一骑绝尘,3DMark实测性能与能效曲线均压制当代旗舰。联发科GPU硬实力已成“基操”,稳定高画质与低功耗兼顾。建议购机前优先查看零售机实测数据,期待更多实测帮助用户稳妥选择。选机看真功夫,把游戏稳帧交给天玑9500。

  • 一图看懂OPPO Find X9系列影像系统 OPPO周意保:画质革命

    OPPO Find X9系列9月29日官宣影像系统,负责人周意保称将掀起移动影像画质革命。该系列在五大技术上突破:AOA主动光学校准、第四代徕卡色彩还原镜头、瞬时三曝光、满血版LYT-828传感器、LUMO超像素引擎并行异构计算,并首发3nm算力芯片。支持哈苏2亿像素直出、全焦段8K超清照片、4K超清实况照片及小红书分享链路。针对旅拍优化人像拍摄,配备专业增距镜等配件。视频支持4K 120fps杜比视界HDR、10bit Log格式及哈苏大师影调。10月16日发布,值得期待。

  • AI排名查询工具如何助力GEO优化?生成引擎优化中的关键词竞争力分析

    在AI搜索时代,传统SEO正被生成引擎优化(GEO)重塑。内容能否被AI“理解”并引用成为流量关键,而GEO策略需依赖专门的AI排名查询工具。文章指出,AI助手直接生成摘要而非链接列表,评估维度与SEO完全不同,需关注语义相关性、权威性和结构化程度。AIBase平台的GEO排名查询工具能模拟主流AI提问,检测内容曝光频率与上下文位置,支持竞品对比和中文场景优化。优化建议包�

今日大家都在搜的词: