DeepMind提出语言模型训练新方法DiLoCo 通信量减少500倍

2023-11-28 11:00 · 稿源：站长之家

要点:
DeepMind的研究团队提出了分布式低通信（DiLoCo）训练语言模型的方法，采用分布式优化算法，使语言模型在连接性较差的设备集群上训练，性能超过完全同步模型，通信开销减少500倍。
DiLoCo借鉴联邦学习文献，采用一种变体的联邦平均（FedAvg）算法，结合动量优化器，通过将内部优化器替换为AdamW和外部优化器替换为Nesterov Momentum，有效应对传统训练方法的挑战。
DiLoCo通过限制共位要求、降低通信频率和设备异构性等三个关键因素，实现了在多台设备可用但连接较差的情况下，分布式训练变压器语言模型的鲁棒性和效果，并在C4数据集上展现出与完全同步优化相媲美的性能。

站长之家（ChinaZ.com）11月28日消息:DeepMind的最新研究在语言模型训练领域取得突破，提出了分布式低通信（DiLoCo）方法。这一方法采用分布式优化算法，使得语言模型可以在连接性较差的设备集群上训练，不仅性能超越完全同步模型，而且通信开销降低了500倍。为了实现这一创新，研究人员借鉴了联邦学习文献，提出了一种基于动量优化器的联邦平均算法的变体，通过替换内部和外部优化器，成功应对传统训练方法的工程和基础设施挑战。

DiLoCo方法的关键优势体现在三个方面:首先，对设备的共位要求较低，减轻了后勤负担;其次，通信频率降低，工作者不需要在每一步都进行通信，大大减少了通信开销;最后，设备异构性的引入增强了灵活性，同一集群内的设备可以不同类型，提高了适应性。

在DiLoCo的训练过程中，通过复制预训练模型，每个工作者独立且并行地在自己的数据片段上训练模型。随后，工作者平均其外部梯度，外部优化器更新全局参数，这一过程重复多次。值得注意的是，每个复制品可以在不同的全局位置使用各种加速器进行训练。

在C4数据集上的实验证明，DiLoCo在8个工作者的情况下展现出与完全同步优化相当的性能，同时通信开销降低了500倍。此外，DiLoCo对每个工作者数据分布的变化表现出卓越的稳健性，并且能够适应训练过程中资源可用性的变化。

综合而言，DiLoCo方法为分布式训练提供了一个强大而有效的解决方案，特别是在多台设备可用但连接性较差的情况下。这一创新性的方法不仅克服了基础设施挑战，还展示出卓越的性能和适应性，标志着语言模型优化领域的重大进展。

（举报）

相关推荐

关键词：

DeepMind

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

AI圈虽然天天卷，但是很多的模型，真的越来越无聊了。每天就是跑分又多了几个点。直到昨天，DeepSeek久违的发了一个新模型。 DeepSeek-OCR。这玩意，是真的有点酷。

DeepSeek-OCR AI模型 OCR技术
品牌在deepseek、豆包里排第几?免费GEO排名查询工具帮你一键看清

随着AI搜索普及，传统SEO正被GEO（生成式引擎优化）取代。GEO核心是提升品牌在AI生成答案中的可见度，而非获取点击流量。数据显示超60%用户已使用AI搜索，若品牌未被AI提及将失去流量入口。文章推荐免费工具AIBase，支持多平台一键检测品牌在主流AI助手的曝光排名、竞品对比及可视化报告，并提供内容权威性、语义化表达等GEO优化策略，帮助品牌在AI时代建立竞争优势。
百度智能云这项开源，让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

10月28日，百度智能云联合SGLang社区开源针对DeepSeek-V3.2优化的多token预测（MTP）技术代码。该技术通过批量生成和集中验证机制，使模型解码吞吐量提升超2倍，突破传统自回归解码的序列化瓶颈。此次开源的MTP方案已完成与DeepSeek-V3.2稀疏注意力架构的深度适配，并经过百度内部业务验证，开发者可"开箱即用"获得稳定可靠的推理加速能力。

百度智能云 DeepSeek-V3.2 MTP技术
2025 PMI项目管理大会|多个活动板块首发，早鸟报名通道开启

自2008年起，PMI项目管理大会汇聚数百位国内外顶尖企业代表、行业领袖与专家，分享洞见与实践，启发数十万参与者。当前，生成式AI、大数据等前沿科技正重塑商业生态与项目管理模式。2025年大会以“智驱万象，项启新篇”为主题，聚焦科技带来的颠覆性变革与机遇，通过行业趋势、跨界交流等多维度活动，打造最具影响力的共创平台，推动合作突破边界。报名已开启，微信搜索“2025PMI项目管理大会”即可参与。

项目管理前沿科技行业趋势
DeepSeek开源3B OCR模型：长文本识别达97%精度

DeepSeek在GitHub开源新一代OCR模型，采用创新光学二维映射压缩技术，在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌，较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率，显著优于同类模型。该技术路径为OCR系统小型化提供解决方案，其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

DeepSeek-OCR 光学二维映射压缩长文本识别
中国AI算力突围：东方超算Deep X算力盒子超国际竞品82%，重新定义行业标准

中国公司东方超算发布Deep X G20系列AI工作站，在MLPerf测试中性能超越NVIDIA DGX Spark达82%，价格持平，实现性能与性价比"双超越"。产品搭载Intel Ultra 9285处理器和NVIDIA RTX PRO 5000显卡，AI算力达1824 TOPS，体积仅2.7L。通过三大技术创新实现突破：智能异构计算引擎提升资源利用率40%；统一推理运行时支持多框架；深度硬件优化提升关键算子性能50-200%。该产品打破国际巨头垄断，已在量化金融、医疗影像等领域实现显著投资回报，标志着中国AI硬件实现重要突破。
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
iPad mini 8外观巨变：去掉扬声器开孔

iPad mini 8将采用全新设计，去掉扬声器开孔并提升防水性能，同时苹果也在为iPad mini 8研发一套新的扬声器系统。据悉，iPad mini 8可能采用屏幕激励器方案，通过驱动屏幕振动来发出声音，其原理是将振动机械能直接传输到屏幕，然后让屏幕代替传统扬声器振膜发声。具体来说，它是通过在机身内部的微驱动单元（激励器）来激励中框，从而带动屏幕振动发声。

iPad mini 8
苹果iPad mini将支持防水：看齐iPhone

苹果正研发新一代防水iPad mini，采用无扬声器开孔设计降低进水风险，防水性能接近iPhone。与iPhone采用粘合剂密封不同，iPad mini通过全新扬声器系统实现防水。现售款无官方防水认证，而新款预计2026年上市，可能搭载OLED屏幕并涨价约100美元（现起售价499美元）。

iPad mini 防水性能
MissPep携手《温暖的客栈》，与奥运冠军陈梦共启品质慢生活

2025年10月16日，美国健康品牌MissPep蜜思派与江苏卫视综艺《温暖的客栈》达成战略合作，成为节目官方合作伙伴。双方通过内容与品牌价值的结合，在健康生活理念传播领域深度探索。节目以“慢生活”为主题，由蒋梦婕、陈梦、黄圣依等嘉宾通过沉浸式体验展现现代人对品质生活的追求。MissPep明星产品补铁小红条在节目中获嘉宾推荐，其“免冲泡直接吃”的创新设计解决了传统营养品使用不便的痛点。此次合作标志着健康产业与文娱产业融合发展的新趋势，通过内容植入实现品牌价值的软性传递。

今日大家都在搜的词：

热文

3 天
7天

DeepMind提出语言模型训练新方法DiLoCo 通信量减少500倍

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

品牌在deepseek、豆包里排第几?免费GEO排名查询工具帮你一键看清

百度智能云这项开源，让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

2025 PMI项目管理大会|多个活动板块首发，早鸟报名通道开启

DeepSeek开源3B OCR模型：长文本识别达97%精度

中国AI算力突围：东方超算Deep X算力盒子超国际竞品82%，重新定义行业标准

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

iPad mini 8外观巨变：去掉扬声器开孔

苹果iPad mini将支持防水：看齐iPhone

MissPep携手《温暖的客栈》，与奥运冠军陈梦共启品质慢生活

今日大家都在搜的词：

热文

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

真我GT8 Pro阿斯顿马丁F1限量版将于11月10日正式开售

何小鹏：小鹏X9超级增程是全球续航最长的大七座车

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

OPPO ColorOS 16正式版推送：首批适配11款机型

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

鸿蒙智行：全新问界M7上市36天交付破20000台

AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；C

小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

苹果客服回应iPhone或自动拨号：设置或其他问题

美股4万亿美元市值上市公司已达3家苹果、微软、英伟达组成三巨

站长商机