研究团队开发开源大模型训练框架 Oobleck 提供快速且有保障的故障修复

2023-12-19 17:45 · 稿源：站长之家

要点:
密歇根大学的研究团队开发了一种名为Oobleck的开源大型模型训练框架，利用管道模板的概念，提供了快速而有保障的故障恢复，避免训练吞吐量下降。
Oobleck的设计核心是管道模板，这是针对给定节点数量的训练管道执行的规范，用于实例化管道副本。这些模板在逻辑上等效（可以一起用于训练相同的模型），但在物理上是异构的(使用不同数量的节点)，从而在保障容错性的同时提供高吞吐量和快速恢复。
与现有框架相比，Oobleck是第一个利用大型语言模型固有冗余进行容错的框架。通过使用预生成的异构模板，它提供了高吞吐量、最大利用率、有保障的容错性以及在故障恢复时避免检查点或重算方法的开销。

站长之家（ChinaZ.com）12月19日消息:随着对生成式人工智能技术需求的激增，大型语言模型的训练和容错性要求也在不断增加。为应对这一挑战，密歇根大学的研究人员开发了一款名为Oobleck的开源大型模型训练框架。该框架采用管道模板的概念，为大型模型的预训练提供了快速而可靠的故障恢复机制。

项目地址:https://github.com/SymbioticLab/Oobleck

传统框架在大型语言模型预训练时缺乏系统支持，而Oobleck通过引入管道模板的概念创新性地解决了这一问题。这些管道模板在逻辑上等效，但在物理上是异构的，允许在训练时利用固有的冗余来提高容错性。相比于现有方法，Oobleck的优势在于其高吞吐量、最大利用率以及对故障的有保障快速恢复，而无需使用检查点或重算方法。

Oobleck的执行引擎在训练作业开始时，根据最大同时容忍的故障数量实例化至少f+1个异构管道。在故障发生时，框架通过简单地从预计算的管道模板重新实例化管道来进行恢复，避免了在运行时寻找新的最佳配置的繁琐分析。因此，使用预生成的管道模板总能够保证Oobleck从f个或更少的故障中恢复。

这种管道模板的引入不仅是对问题发生后缓慢处理或对所有可能情景进行规划的一种平衡，而且为分布式计算系统中的高效而有效的弹性提供了示范。未来，研究人员计划将管道模板应用于改进各种生成式人工智能应用的弹性，首先从推理服务系统开始。

总的来说，Oobleck的开发标志着利用固有冗余提高容错性的新里程碑，为大型模型的高效训练和故障恢复提供了一种创新性的解决方案。

（举报）

相关推荐

关键词：

Oobleck

Mini LED时代即将终结！MacBook Pro将升级为OLED屏

苹果爆料人Mark Gurman透露，MacBook Pro会率先升级OLED，时间是明年下半年，然后MacBook Air再跟进OLED，时间是2028年，届时MacBook Pro和MacBook Air都将全面迈入OLED时代。 Mark Gurman指出，苹果旗下的iPad系列、MacBook机型全部都将启用OLED屏幕，包括iPad mini、MacBook Pro、iPad Air和MacBook Air，且大概率会按此顺序推进。PS：入门款iPad暂无搭载OLED的计划。值得注意的是，MacBo

OLED MacBook Pro
Uber与Checkout.com官宣战略合作伙伴关系，为全球企业平台提供高速可靠支付服务

英国数字支付服务商Checkout.com与出行平台Uber达成全球战略合作，将为Uber在全球主要市场的网约车及外卖平台提供收单和网关服务。凭借其全球覆盖能力与本地化专长，Checkout.com将助力Uber每日处理数百万笔交易，并通过AI技术优化支付流程，提升交易成功率与安全性。此次合作将强化Uber的全球支付体验，支持其数字出行领域的持续创新。

全球收单网关服务支付解决方案
未来iPad mini/iPad Air/MacBook都将升级OLED屏：LCD退场

苹果正在研发搭载OLED显示屏的iPad mini、iPad Air、MacBook Pro和MacBook Air机型，苹果已在iPad Pro中采用OLED屏，并计划在未来数月及数年内将OLED推广到更多设备上，从而淘汰LCD屏幕。具体来看，iPad mini最快会在2026年配备OLED屏，同时会提升防水性能，新款iPad mini也因此涨价100美元。至于iPad Air，其商用OLED的时间要晚于iPad mini，爆料称2026年春季亮相的iPad Air将继续使用LCD屏幕，但后续

OLED显示屏 iPad mini
双11买MacBook最优选出炉网友发现京东价低天猫近千元

双11期间，京东和天猫推出iPhone17系列优惠。京东提供300元以旧换新补贴、12期免息，256G版可叠加500元国家补贴，覆盖地区比天猫多5个。iPhone17 Pro系列在京东可享700元以旧换新补贴，优惠超千元。MacBook方面，京东MacBook Air M4直降1600元并叠加10%政府补贴，优惠超2000元；MacBook Pro M5享1000元直降，天猫无此优惠。京东还备有百万现货，配送更快。建议果粉打开京东APP搜索"苹果惊喜券"参与活动。

双11大促 iPhone17系列优惠对比
特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

特斯拉磁悬浮Cybertruck车模11月12日在中国官网开售，定价999元。这款1:24比例模型精准还原实车细节，采用银色涂装与可亮车灯，内置14个LED灯，展现科技感。模型重293克，底座重1291克，确保稳定悬浮。使用时只需通电并放置于非金属表面，通过磁力实现悬浮效果，可静置观赏或轻触旋转，为收藏爱好者带来独特视觉体验。

特斯拉 Cybertruck 车模
EBC金融集团携手牛津：洞见经济本质实现投资认知突围

EBC金融集团与牛津大学经济系将于2025年11月11日联合举办第三期“经济学家都干了什么”系列研讨会。本期主题聚焦复杂时代的金融素养培养，旨在帮助投资者建立牛津经济学思维，弥合公众与专家间的认知鸿沟。研讨会将引入“解释-参与-教育”三维框架，结合牛津教授的前沿研究与EBC CEO的实战经验，探讨央行沟通策略及有效经济教育模式，助力提升市场洞察力与决策能力。
特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

特斯拉CEO马斯克透露，Cybercab无人驾驶出租车将于2026年第二季度量产。该车型颠覆传统设计，无方向盘和踏板，完全依赖FSD全自动驾驶技术，采用纯视觉方案。整车成本预计低于3万美元，配备超大后备箱和鸥翼门，内饰极简仅设中控屏。车辆支持感应充电，专为无人出租场景优化，将推动汽车行业变革。

特斯拉 Cybercab 无人驾驶
创业者“奥斯卡”！卓世科技荣膺 HICOOL2025全球创业大赛二等奖

10月16日，HICOOL2025全球创业者峰会在京开幕。卓世科技的“璇玑玉衡大模型+MaaS训练平台+零代码Agent平台”三位一体AI全栈方案，从全球万余项目中脱颖而出，荣获大赛二等奖。该方案在模型性能、易用性及商业化闭环方面展现世界级水准，为大模型产业化落地提供标杆路径。五年来，HICOOL累计吸引167国3.4万项目参赛，孵化16家独角兽，赛后融资总额超500亿元，已成为全球最具影响力的创业赛事之一。

HICOOL2025 全球创业者峰会卓世科技
性价比最高的MacBook来了！苹果把iPhone处理器塞进笔记本里

本月苹果推出了全新MacBook Pro、iPad Pro及Vision Pro，这些设备均搭载新一代M5芯片。除了上述新品，苹果还有一款MacBook已在路上，许多人期待能在节前看到。行业分析师郭明錤透露，苹果正研发一款更具性价比的13英寸笔记本电脑，这款产品旨在对标Chromebook，提升MacBook的整体销量，新MacBook将搭载A18 Pro芯片，这颗芯片去年在iPhone 16 Pro上首发搭载。在Mac产品中使用iPhone芯片，从�

苹果 MacBook M5芯片
三星Micro RGB色彩技术亮相进博，智绘AI家电新视界

三星在第八届进博会上紧扣AI浪潮，展示了显示技术、智能家电、半导体及物联网等领域的前沿成果。重点推出全球首款Micro RGB电视，融合微米级LED创新显示与AI功能，实现精准控光、更高亮度和真实色彩；同时展出144英寸Micro LED及纤薄折叠手机，体现从超大屏到移动显示的技术实力。全线产品集成Vision AI，通过影像增强、自适应音效等技术优化视听体验，并借助Galaxy AI提供个性化服务，强化在移动AI领域的领先地位。

AI智能家电显示技术半导体

今日大家都在搜的词：

热文

3 天
7天

研究团队开发开源大模型训练框架 Oobleck 提供快速且有保障的故障修复

Mini LED时代即将终结！MacBook Pro将升级为OLED屏

Uber与Checkout.com官宣战略合作伙伴关系，为全球企业平台提供高速可靠支付服务

未来iPad mini/iPad Air/MacBook都将升级OLED屏：LCD退场

双11买MacBook最优选出炉网友发现京东价低天猫近千元

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

EBC金融集团携手牛津：洞见经济本质实现投资认知突围

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

创业者“奥斯卡”！卓世科技荣膺 HICOOL2025全球创业大赛二等奖

性价比最高的MacBook来了！苹果把iPhone处理器塞进笔记本里

三星Micro RGB色彩技术亮相进博，智绘AI家电新视界

今日大家都在搜的词：

热文

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

华为Mate 70 Air维修备件价格公布：换主板2499元

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

鸿蒙智行：智界R7累计交付量破10万台

真我GT8 Pro阿斯顿马丁F1限量版正式开售售价5499元

特斯拉Model Y L上线外放电功能最高可输出2200瓦功率

小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

华为Mate70 Air官宣今日开启预售

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

华为路由X3 Pro今日开启预售：售价1299元起

站长商机