首页 > AI头条  > 正文

DeepSeek发布大模型训练端到端论文,展示卓越工程深度

2025-05-21 10:03 · 来源: AIbase基地

近日,DeepSeek发布了一篇关于大模型训练的最佳端到端技术论文,引发业界广泛关注。该论文全面阐述了DeepSeek在大模型研发中的技术突破,涵盖软件、硬件及混合优化方案,展现了其令人惊叹的工程深度。

在**软件**层面,论文详细介绍了多头潜在注意力机制(MLA),显著降低推理过程中的内存占用;FP8混合精度训练通过低精度计算提升效率,同时保证数值稳定性;DeepEP通信库优化了专家并行(EP)通信,支持FP8低精度操作,加速MoE模型训练与推理;LogFMT对数浮点格式则通过均匀化激活分布,进一步优化计算效率。

QQ20250521-100157.png

在**硬件**方面,DeepSeek采用Multi-Rail Fat Tree网络拓扑,结合Ethernet RoCE交换机,极大提升了集群网络性能,降低了通信开销,确保大规模训练的高效性

**混合优化**包括IBGDA(基于InfiniBand的组数据聚合),通过高效通信内核减少跨节点MoE训练的瓶颈;3FS(Fire-Flyer文件系统)充分利用现代SSD和RDMA网络带宽,优化数据访问效率,为AI高性能计算提供强力支持。

DeepSeek通过算法、框架与硬件的协同设计,克服了内存容量、计算效率和互联带宽的瓶颈,显著降低了训练成本。其V3模型在2048块NVIDIA H800GPU上训练,仅需278.8万GPU小时,性能媲美顶级闭源模型,彰显了开源AI的巨大潜力。

这篇论文不仅展示了DeepSeek在技术创新上的领先地位,也为全球AI社区提供了宝贵的参考,推动了大模型训练的效率与可及性。DeepSeek的开放协作精神和工程实力,正引领AI技术迈向新高度。

论文地址:https://www.alphaxiv.org/abs/2505.09343

  • 相关推荐
  • 前DeepSeek研究员罗福莉已加入小米:全力奔赴AGI

    11月12日,“95后AI天才少女”罗福莉宣布加入小米MiMo大模型团队。她曾因“雷军千万年薪挖角”话题引发热议,拥有丰富AI研发经历,先后在幻方量化和DeepSeek参与大模型研发。罗福莉表示,将与团队致力于推动AI从语言迈向物理世界,全力构建通用人工智能。她的加入将为小米AI研究注入新活力。

  • DeepSeek崩了上热搜 页面显示“服务器繁忙”

    截至2025年11月3日,大量用户在微博话题#DeepSeek崩了#下集中反馈,DeepSeek平台出现服务异常状况,引发广泛关注。综合各方信息,此次故障呈现多方面表现,对用户使用造成显著影响。 众多用户表示遭遇服务全面中断问题,在尝试使用平台

  • ​你的品牌在豆包、DeepSeek里搜不到?这份GEO品牌监控攻略,3步把曝光拉满

    GEO指数是AI搜索时代的品牌可见度衡量指标,量化品牌被AI引用、推荐和对比的频率与深度。与传统SEO比拼搜索排名不同,GEO衡量的是品牌在AI回答中的提及率和好感度。数据显示,高GEO指数品牌在AI搜索中的转化率是传统SEO的3.4倍。文章通过案例说明,企业可通过监控竞品差距、补充缺失内容关键词、优化AI提示词等策略提升GEO指数。建议立即使用AIBase平台免费体验GEO监控,把握AI搜索新机遇。

  • 品牌在deepseek、豆包里排第几?免费GEO排名查询工具帮你一键看清

    随着AI搜索普及,传统SEO正被GEO(生成式引擎优化)取代。GEO核心是提升品牌在AI生成答案中的可见度,而非获取点击流量。数据显示超60%用户已使用AI搜索,若品牌未被AI提及将失去流量入口。文章推荐免费工具AIBase,支持多平台一键检测品牌在主流AI助手的曝光排名、竞品对比及可视化报告,并提供内容权威性、语义化表达等GEO优化策略,帮助品牌在AI时代建立竞争优势。

  • 百度智能云这项开源,让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

    10月28日,百度智能云联合SGLang社区开源针对DeepSeek-V3.2优化的多token预测(MTP)技术代码。该技术通过批量生成和集中验证机制,使模型解码吞吐量提升超2倍,突破传统自回归解码的序列化瓶颈。此次开源的MTP方案已完成与DeepSeek-V3.2稀疏注意力架构的深度适配,并经过百度内部业务验证,开发者可"开箱即用"获得稳定可靠的推理加速能力。

  • 趣链科技牵头两项IEEE国际标准正式发布,全球技术标准再添“中国方案”

    近日,IEEE标准协会正式发布由趣链科技牵头制定的两项区块链国际标准,标志着我国在数字技术国际标准化工作中取得重要突破。两项标准分别为《区块链即服务参考架构标准》和《区块链一体机参考架构标准》,由浙江大学等机构主导制定,多家产学研机构专家共同参与。标准规范了区块链服务化平台与软硬件融合系统的技术框架,将提升我国在全球区块链领域的标准制定能力与国际话语权,为产业协同创新提供支撑。

  • AI日报:广电整治AI动画乱象;360发布大模型安全白皮书;百度推出小度AI眼镜Pro

    国家广电总局宣布自2026年3月起全面整治AI生成内容,要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》,提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro,集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX,实现文本化语音编辑。Grok新增纯文本生成视频功能,17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠,并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型,优化开发者体验。

  • 易鑫正式发布汽车金融行业首个Agentic大模型

    易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿,响应延迟低于200毫秒,支持语音实时交互,单卡吞吐达370 tokens/秒,可提升获客、风控与运营效率,解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台,研发投入超20亿元,率先实现AI全场景应用,将持续推动智能汽车金融生态建设。

  • 机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

    银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM,实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用,通过统一“视频流+文本指令→动作轨迹”范式,融合800万条跨任务导航数据,在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施,为规模化商业落地奠定关键基础。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

今日大家都在搜的词: