首页 > AI头条  > 正文

DeepSeek发布大模型训练端到端论文,展示卓越工程深度

2025-05-21 10:03 · 来源: AIbase基地

近日,DeepSeek发布了一篇关于大模型训练的最佳端到端技术论文,引发业界广泛关注。该论文全面阐述了DeepSeek在大模型研发中的技术突破,涵盖软件、硬件及混合优化方案,展现了其令人惊叹的工程深度。

在**软件**层面,论文详细介绍了多头潜在注意力机制(MLA),显著降低推理过程中的内存占用;FP8混合精度训练通过低精度计算提升效率,同时保证数值稳定性;DeepEP通信库优化了专家并行(EP)通信,支持FP8低精度操作,加速MoE模型训练与推理;LogFMT对数浮点格式则通过均匀化激活分布,进一步优化计算效率。

QQ20250521-100157.png

在**硬件**方面,DeepSeek采用Multi-Rail Fat Tree网络拓扑,结合Ethernet RoCE交换机,极大提升了集群网络性能,降低了通信开销,确保大规模训练的高效性

**混合优化**包括IBGDA(基于InfiniBand的组数据聚合),通过高效通信内核减少跨节点MoE训练的瓶颈;3FS(Fire-Flyer文件系统)充分利用现代SSD和RDMA网络带宽,优化数据访问效率,为AI高性能计算提供强力支持。

DeepSeek通过算法、框架与硬件的协同设计,克服了内存容量、计算效率和互联带宽的瓶颈,显著降低了训练成本。其V3模型在2048块NVIDIA H800GPU上训练,仅需278.8万GPU小时,性能媲美顶级闭源模型,彰显了开源AI的巨大潜力。

这篇论文不仅展示了DeepSeek在技术创新上的领先地位,也为全球AI社区提供了宝贵的参考,推动了大模型训练的效率与可及性。DeepSeek的开放协作精神和工程实力,正引领AI技术迈向新高度。

论文地址:https://www.alphaxiv.org/abs/2505.09343

  • 相关推荐
  • 谁在往“DeepSeek们”的回答里塞广告?

    AI正在重塑现代职场与当代生活。如果说在过去,人们遇到问题往往会首选“搜一下”,如今,则变为“问问AI”。或许是ChatGPT和DeepSeek,也可能是豆包和元宝…… 从数据来看,头豹研究院数据显示,全球AI搜索的用户量从2024年1月的3.1亿增长至2025年2月份的19.8亿,增长率达538.7%。 而当AI在日常工作和生活中越来越成为不可或缺的工具,变化正悄然发生。当DeepSeek的回答里频繁�

  • 聚焦大模型训练效率提升 北大依托昇腾突破细粒度混合并行技术

    北京大学崔斌教授团队在鹏城实验室支持下,研发了面向大模型的高效分布式训练框架。该框架通过统一训练接口、细粒度模型切分与并行策略搜索算法,解决了训练任务多样性和负载不均问题,实现训练效率提升15%。同时利用昇腾计算资源管理能力,优化硬件通信效率,通过计算通信重叠技术提升流水线效率。研究成果已在NeurIPS等顶会发表3篇论文,展现了国产算力在分布式计算领域的潜力,为AI产业自主化突破提供支撑。

  • 智能体迎来“DeepSeek时刻”,为何主角是纳米AI?

    大模型重塑了人工智能的产业格局,但却没有彻底颠覆人类的生产模式。 在这背后,并非其技术力量不足,而是当前的应用形态仍停留在“工具赋能”的初级阶段,大模型的潜力被束缚在碎片化场景中,未能转化为重构生产逻辑的核心动能。 正如360集团创始人、董事长周鸿祎所言,大模型的能力其实已经相当强大,甚至超越了我们中的许多人。只是其潜力尚未被挖掘。 而�

  • 谷歌DeepMind发布Genie 3世界模型:支持实时生成交互式3D环境

    据媒体报道,谷歌DeepMind正式发布了其新一代通用世界模型Genie 3。 该模型能够根据用户的文本提示,快速生成丰富多样的交互式虚拟环境。Genie 3不仅能够以每秒24帧的速度生成720p分辨率的高清交互式3D世界,更创新性地引入了 可提示世界事件” 功能。用户通过简单文本指令,即可实时修改虚拟环境,显著提升了沉浸感与创造力。 DeepMind视Genie 3为迈向通用人工智能(AGI) 的�

  • AI日报:混元推四款小尺寸开源模型;昆仑万维发布新推理大模型MindLink;谷歌Gemini 2.5 Deep Think发布

    【AI日报】汇总了最新AI领域动态:1)腾讯开源混元系列小尺寸模型,适用于消费级显卡;2)昆仑万维发布推理大模型MindLink,提升回答透明度;3)B站推出AI原声翻译功能,保留UP主音色;4)谷歌Gemini 2.5在数学奥赛夺金,展现强大推理能力;5)OpenAI展示GPT-5网络信息整合特性;6)苹果组建AI团队挑战ChatGPT;7)高德地图推出全球首个AI原生地图应用;8)Adobe推出AI图像合成工具Harmonize;9)NVIDIA发布革命性视频渲染技术;10)谷歌推出Android Studio免费AI编程助手;11)开源结构化信息提取工具LangExtract;12)Figma开发者模式升级提升设计转代码效率。

  • AI日报:百度推全球首批AI数字员工;Claude Opus4.1出世;谷歌DeepMind发布世界模型Genie 3

    AI日报栏目聚焦人工智能领域最新动态:1)Claude Opus4.1发布,编程能力提升74.5%;2)OpenAI开源GPT-OSS-120B和20B模型;3)谷歌DeepMind推出革命性3D世界模型Genie3;4)谷歌Gemini新增AI故事书生成功能;5)ElevenLabs推出商用AI音乐生成器;6)百度智能云发布首批AI数字员工;7)OpenAI估值或达5000亿美元;8)00后创业者推出云端AI协作开发工具Vinsoo;9)腾讯启动2026校园招聘,重点培养AI人才;10)马斯克宣�

  • GPT-5正式发布:与Claude 4、Gemini 2.5等主流大模型谁更胜一筹?

    2025年8月7日,OpenAI正式发布GPT-5,官方称其为"最智能、最快速、最实用"的AI模型。GPT-5在数学推理能力上大幅提升,在AIME2025测试中取得94.6%的高分,处理速度也有明显改善。但与竞争对手相比仍存在差距:Claude4在代码生成和逻辑推理方面表现优异,支持200K token长文本;Gemini2.5具备2M超大上下文窗口和全模态支持;国产模型DeepSeek R1在中文理解和性价比方面具有优势。AI�

  • GPT-5和Claude 4 Opus谁更强?用这个AI大模型对比工具一眼明了

    OpenAI正式发布GPT-5,与Claude4Opus和Gemini2.5Pro进行对比测试。GPT-5在编程能力(SWE-bench测试74.9%)和数学推理(AIME2025测试94.6%)表现突出;Claude4Opus编程优异(72.5%)但数学较弱(33.9%);Gemini2.5Pro擅长长文本处理(100万token窗口)和多模态应用。价格方面,GPT-5和Gemini2.5Pro定价相近($1.25-$10),Claude4Opus较高($15-$75)。建议根据需求选择:GPT-5适合综合应用,Claude4Opus适合专业编程,Gemini2.5Pro适合长文档�

  • 武大、蚂蚁集团发布新一代遥感大模型:12边型战士

    近日,武汉大学与蚂蚁集团联合发布了新一代语义增强遥感大模型SkySense,堪称12边型战士。 其相关研究成果在国际知名学术期刊《自然机器智能》上在线发表。 当前,遥感基础大模型在复杂动态地球观测场景应用中面临挑战,如多模态遥感影像数据融合性能欠佳、下游任务微调依赖大量数据、对遥感语义信息挖掘不足等。 为攻克这些难题,研究团队基于前期多模态遥感大�

  • AI日报:Kimi K2 高速版发布;美图WHEE上线视频超清功能;字节发布新模型Seed Diffusion Preview

    【AI日报】今日AI领域重要动态:1)美图WHEE推出"视频超清"功能,通过AI技术提升视频画质;2)Kimi K2高速版发布,输出速度提升至每秒40 Tokens;3)通义千问开源编程模型Qwen3-Coder-Flash,支持大规模上下文理解;4)Anthropic企业AI市场份额升至32%,超越OpenAI;5)字节跳动发布实验性扩散语言模型Seed Diffusion;6)马斯克将为Grok用户推出视频生成器Imagine和AI虚拟男友;7)Quora的Poe平台推出开发者API;8)Black Forest Labs开源图像生成模型FLUX.1-Krea;9)Augment推出CLI工具Auggie优化开发流程;10)清华开源AI语音模型MOSS-TTSD;11)Claude升级支持多格式文件上传。

今日大家都在搜的词: