DeepSeek-V3 发布新论文，揭示低成本大模型训练的奥秘

2025-05-16 08:51 · 来源： AIbase基地

近日，DeepSeek 团队发布了关于其最新模型 DeepSeek-V3的一篇技术论文，重点讨论了在大规模人工智能模型训练中遇到的 “扩展挑战” 以及与硬件架构相关的思考。这篇长达14页的论文不仅总结了 DeepSeek 在开发 V3过程中的经验与教训，还为未来的硬件设计提供了深刻的见解。值得注意的是，DeepSeek 的 CEO 梁文锋也参与了论文的撰写。

论文地址:https://arxiv.org/pdf/2505.09343

该研究表明，当前大语言模型（LLM）的迅速扩展暴露了现有硬件架构的许多局限性，比如内存容量、计算效率和互连带宽。DeepSeek-V3在2048块 NVIDIA H800GPU 集群上训练，通过有效的硬件感知模型设计，克服了这些限制，实现了经济高效的大规模训练和推理。

论文中提出了几个关键点。首先，DeepSeek-V3采用了先进的 DeepSeekMoE 架构和多头潜在注意力（MLA）架构，极大地提高了内存效率。MLA 技术通过压缩键值缓存，显著降低了内存使用，使得每个 token 只需70KB 的内存，相比其他模型大幅减少。

其次，DeepSeek 还实现了成本效益的优化。通过其混合专家（MoE）架构，DeepSeek-V3在激活参数的数量上实现了显著的降低，训练成本相比于传统密集模型降低了一个数量级。此外，该模型在推理速度上也进行了优化，采用双微批次重叠架构来最大化吞吐量，确保 GPU 资源得到充分利用。

DeepSeek 在未来硬件设计方面提出了创新的思考。他们建议通过联合优化硬件和模型架构，来应对 LLM 的内存效率、成本效益和推理速度三大挑战。这为日后的 AI 系统开发提供了宝贵的参考。

相关推荐

DeepSeek上新！开源发布DeepSeek-Prover-V2-671B新模型

快科技4月30日消息，今日，DeepSeek 今日在 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据介绍，DeepSeek-Prover-V2-671B 其参数量达到6710亿，使用了更高效的 safetensors 文件格式，并支持 BF16、FP8、F32 等多种计算精度，方便模型更快、更省资源地训练和部署。在模型架构上，该模型使用了DeepSeek-V3架构，采用MoE（混合专家）模式，具有61层Transformer层，7168维隐藏层。同时支持超长上下文，最大位置嵌入达163840，使其能处理复杂的数学证明，并且采用了FP8量化，可通过量化技术减小模型大小，提

DeepSeek AI模型发布开源社区
荐DeepSeek带飞寒武纪

寒武纪凭借AI芯片业务实现扭亏为盈，2024年首次实现上市后盈利，2025年Q1营收11.11亿元同比暴增4230%，净利润3.55亿元。这家曾连亏8年、累计亏损54亿元的"中国版英伟达"，因美国对H20芯片出口管制获得市场红利，但客户集中度过高（前五大客户贡献94.63%营收）和现金流波动仍是隐忧。当前国产芯片迎来发展机遇，华为昇腾、壁仞等企业纷纷抢占市场，行业竞争日趋激烈。

DeepSeek红利寒武纪盈利 AI芯片市场
DeepSeek+物流行业，AI大模型破解五大场景效能困局

文章探讨了AI大模型在物流行业的应用现状与挑战。以DeepSeek为代表的AI技术正通过重构业务流程、优化资源配置、提升决策效率等方式，成为推动行业降本增效的核心引擎。但成功应用AI大模型需要企业具备数字化基础、业务流程标准化和数据治理能力，而非简单技术堆砌。G7+易流梳理出五大核心应用场景：工作效能辅助、经营数据分析、安全审查、智能客服和知识管理。这些

人工智能大模型物流行业
IQ 过百的 AI 模型名单发布：ChatGPT、Deepseek等上榜

人工智能IQ哪家强？o3 智商高达 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 凭借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

AI智商 ChatGPT Deepseek
初中老师如何用deepseek 和 Kimi无痛做课件

本教程指导初中教师如何利用Deepseek和Kimi两款AI工具高效完成备课全流程。Deepseek用于生成教学设计方案和PPT大纲，Kimi则根据大纲快速生成精美课件。操作步骤：1）在Deepseek输入教学需求生成教学设计；2）用Deepseek生成PPT大纲；3）将大纲粘贴至Kimi PPT助手一键生成课件。该方法特别适合日常备课、临时调课需求，能大幅提升备课效率，让教师既省时又高效。

教师培训智慧教辅 AI辅助教学
荐DeepSeek爆火100天，大厂又找回初心了

DeepSeek R1模型发布100天后，中国AI行业竞争格局被彻底重构。该模型3个月内用户突破1.9亿，成为国内最大AI原生应用。腾讯、百度等科技大厂纷纷接入，其中腾讯元宝APP借助DeepSeek流量一度登顶苹果应用下载榜。字节和阿里选择自研路线，字节推出"深度思考"功能，阿里则专注开源模型研发。随着DeepSeek热潮减退，豆包重回下载量榜首，元宝跌出前20。科技大厂在享受DeepSee

DeepSeek AI模型中国AI
华为鸿蒙电脑接入DeepSeek：生产力更强

官方介绍，鸿蒙电脑历经五年布局，集结10000多名顶尖工程师，联合20多家研究所，积累超2700项核心专利。

鸿蒙电脑 HarmonyOS5 智能助手
Flyme AIOS 2发布：魅族Note 16首发接入DeepSeek

在智能交互方面，Flyme AIOS2接入DeepSeek R1满血版，具备深度思考能力，并提供三种模式供用户选择。此外，星纪魅族成为首家接入阿里云首个端到端全模态大模型通义千问Qwen - Omni的厂商，这使得系统能带来更敏捷聪明、更具拟人情感的超自然语音对话体验，正式

Flyme AIOS2 魅族Note16
AI简历教程！用 deepseek 一键生成高质量简历

本文介绍如何利用AI工具Deepseek快速制作专业简历。传统简历制作依赖WPS模板或作图软件，过程繁琐。现在通过Deepseek平台，只需输入自然语言指令（如工作经验、技能等关键信息），系统即可自动生成排版精美的HTML版简历，还能转换为PDF格式。操作流程分三步：1.访问官网输入需求指令；2.查看并运行生成的HTML代码；3.保存文件或转为PDF。该工具特别适合求职者快速制作突出个人优势的专业简历，大幅提升求职效率。

深度思考R1模型 AI简历制作求职工具
国羽加油口号是DeepSeek想的网友：这个口号好厉害

中国羽毛球队在2025年苏迪曼杯首轮比赛中5-0战胜阿尔及利亚队，赛前全队高喊"羽啸鼓浪巅，中国剑指天！"的霸气口号。这句由DeepSeek团队借助科技力量创作的口号，既体现了羽毛球运动精神，又展现了队员们的昂扬斗志。口号成为国羽标志性语言，激励队员为国争光。此次合作彰显科技与体育的完美结合，也体现了DeepSeek对体育事业的支持。未来期待DeepSeek继续发挥创意技术优势，为更多体育赛事提供支持，共同推动中国体育事业发展。

苏迪曼杯中国羽毛球队加油口号

今日大家都在搜的词：

热文

3 天
7天

DeepSeek-V3 发布新论文，揭示低成本大模型训练的奥秘

DeepSeek上新！开源发布DeepSeek-Prover-V2-671B新模型

荐DeepSeek带飞寒武纪

DeepSeek+物流行业，AI大模型破解五大场景效能困局

IQ 过百的 AI 模型名单发布：ChatGPT、Deepseek等上榜

初中老师如何用deepseek 和 Kimi无痛做课件

荐DeepSeek爆火100天，大厂又找回初心了

华为鸿蒙电脑接入DeepSeek：生产力更强

Flyme AIOS 2发布：魅族Note 16首发接入DeepSeek

AI简历教程！用 deepseek 一键生成高质量简历

国羽加油口号是DeepSeek想的网友：这个口号好厉害

今日大家都在搜的词：

热文

42岁程序员因AI被裁，失业一年，现蜗居房车，靠跑腿维生

日产 N7 电动车在中国创下新纪录，18 天订单突破 1 万台

苹果 AI 太落伍？他们需要从对手那里“复制”这三个功能

谷歌刚修复了一个高危 Chrome 漏洞，可被用于劫持账户

报告显示：苹果仍是全球最有价值的品牌！

Noyb指控Meta再次违反GDPR，或面临2000亿欧元赔偿

Anthropic 的律师因 Claude 编造法律引文被迫道歉

仅用三张图像即可生成 3D 场景，苹果新 AI 模型“很惊人”

AI侵权纠纷愈演愈烈，特朗普罢免美国版权主管

奥特曼：使用 ChatGPT 的方式，暴露了你的年龄！

在由人类创造的“AI驱动”的世界里，人类该何去何从？

三星、LG本月开始为iPhone 17批量生产OLED面板

2027 年太晚了？随着竞争加剧，iPhone 已失去光彩

C++创始人：需要改变的不是语言，而是开发者的思维方式！

42岁程序员因AI被裁，失业一年，现蜗居房车，靠跑腿维生

日产 N7 电动车在中国创下新纪录，18 天订单突破 1 万台

四年来，软银集团首次实现年度盈利，重振投资者信心

站长商机