首页 > 业界 > 关键词  > Oobleck最新资讯  > 正文

研究团队开发开源大模型训练框架 Oobleck 提供快速且有保障的故障修复

2023-12-19 17:45 · 稿源:站长之家

要点:

  • 密歇根大学的研究团队开发了一种名为Oobleck的开源大型模型训练框架,利用管道模板的概念,提供了快速而有保障的故障恢复,避免训练吞吐量下降。

  • Oobleck的设计核心是管道模板,这是针对给定节点数量的训练管道执行的规范,用于实例化管道副本。这些模板在逻辑上等效(可以一起用于训练相同的模型),但在物理上是异构的(使用不同数量的节点),从而在保障容错性的同时提供高吞吐量和快速恢复。

  • 与现有框架相比,Oobleck是第一个利用大型语言模型固有冗余进行容错的框架。通过使用预生成的异构模板,它提供了高吞吐量、最大利用率、有保障的容错性以及在故障恢复时避免检查点或重算方法的开销。

站长之家(ChinaZ.com)12月19日 消息:随着对生成式人工智能技术需求的激增,大型语言模型的训练和容错性要求也在不断增加。为应对这一挑战,密歇根大学的研究人员开发了一款名为Oobleck的开源大型模型训练框架。该框架采用管道模板的概念,为大型模型的预训练提供了快速而可靠的故障恢复机制。

image.png

项目地址:https://github.com/SymbioticLab/Oobleck

传统框架在大型语言模型预训练时缺乏系统支持,而Oobleck通过引入管道模板的概念创新性地解决了这一问题。这些管道模板在逻辑上等效,但在物理上是异构的,允许在训练时利用固有的冗余来提高容错性。相比于现有方法,Oobleck的优势在于其高吞吐量、最大利用率以及对故障的有保障快速恢复,而无需使用检查点或重算方法。

Oobleck的执行引擎在训练作业开始时,根据最大同时容忍的故障数量实例化至少f+1个异构管道。在故障发生时,框架通过简单地从预计算的管道模板重新实例化管道来进行恢复,避免了在运行时寻找新的最佳配置的繁琐分析。因此,使用预生成的管道模板总能够保证Oobleck从f个或更少的故障中恢复。

这种管道模板的引入不仅是对问题发生后缓慢处理或对所有可能情景进行规划的一种平衡,而且为分布式计算系统中的高效而有效的弹性提供了示范。未来,研究人员计划将管道模板应用于改进各种生成式人工智能应用的弹性,首先从推理服务系统开始。

总的来说,Oobleck的开发标志着利用固有冗余提高容错性的新里程碑,为大型模型的高效训练和故障恢复提供了一种创新性的解决方案。

举报

  • 相关推荐
  • 曝MacBook塞进iPhone处理器:售价亲民

    分析师郭明錤透露,苹果MacBook系列新品规划:2026年底量产OLED版MacBook Pro,配备触控面板;2025年Q4推低价版MacBook,搭载iPhone同款A18 Pro处理器,目标年轻用户,配13英寸屏和多彩外壳,支持AI任务。苹果希望通过低价产品扩大市场份额。

  • 无视乔布斯意愿!曝苹果触摸屏MacBook Pro明年量产:19年来首次

    苹果首款支持触控屏的MacBook Pro预计2026年底量产,采用OLED屏幕和on-cell触控技术。这与乔布斯2010年反对触控屏Mac的立场形成对比,当时他认为垂直触控表面"从人体工程学角度非常糟糕"。2025年底将推搭载iPhone处理器的廉价版MacBook,但不支持触控;第二代或于2027年加入触控功能。这一转变基于对iPad用户习惯的观察,认为触控输入能提高生产力。此前2023年已有类似消息透露苹果工程师正积极研发触控Mac。

  • 突破 Mini LED!三星 Micro RGB 引航显示进入 Micro 时代

    三星在京东方MALL举办“AI的呵护”家电线下体验展,展出全球首款Micro RGB电视115MR95F。该电视采用Micro RGB技术,实现100% BT.2020色域覆盖,色彩精准度与对比度达到新高度。搭载AI芯片优化画质,支持144Hz刷新率与杜比全景声,定价199,999元。三星借此布局超高端市场,展示Micro RGB+QD-OLED+Micro LED三大技术矩阵,重塑显示行业格局。

  • iQOO 15首发自研电竞芯片Q3:开启手机显卡时代

    iQOO 15于9月23日发布,搭载自研电竞芯片Q3,支持全场景光线追踪、超清分辨率与超级帧率,开启手机“显卡时代”。该芯片是行业唯一同时支持超分、超帧和光追的独立显示芯片。iQOO 15首发QNSS超级渲染引擎,实现《大型开放世界手游》原生全场景光追,带来行业领先的2K原画超分及2K+144FPS超分超帧并发,堪称性能碾压机。官方实测显示,运行大型开放世界手游原生60帧+极高画质模式,平均帧率60.2帧,功耗3.9W。此外,iQOO 15全球首发2K三星珠峰屏,采用三星最新M14发光材料,通过创新光刻工艺去除传统偏光层,提升透光效率并延长屏幕寿命。

  • 哥伦比亚海关正式采用IQAX eBL处理进口货物 通过GSBN Doc Viewer应用程序进行实时核验

    2025年9月17日,IQAX公司宣布哥伦比亚海关正式认可其电子提单(eBL)。该系统通过区块链技术简化验证流程,海关只需扫描二维码即可实时核验单据真实性。此举显著提升清关效率与安全性,降低欺诈风险,推动无纸化贸易。中远海运已通过GSBN平台实现电子提单实时核验,未来将进一步拓展拉美市场应用。

  • 当“极速打样”遇上“超高多层”:嘉立创如何定义PCB研发新基建?

    艾媒咨询报告显示,AI服务器和汽车电子正重塑PCB技术门槛。AI服务器要求20-30层高多层板,需应对信号完整性、热管理和超低损耗材料挑战;汽车电子则强调高可靠性,需在极端环境下稳定工作。面对复杂设计需求,传统开发流程已难应对,一站式的快速打样与高端工艺支持成为破局关键。工程师需借助能够兼顾速度与深度的制造平台,将创新设计高效转化为现实产品。

  • 7.3GHz新纪录!HiCookie再创9800X3D+技嘉X870主板超频战绩

    技嘉2025新品发布会圆满落幕,展示X3D系列主板、OLED显示器及AI+TOP等新品,并推出D5黑科技2.0和X3D鸡血模式2.0软件更新。超频大师HiCookie现场演示液氮超频,使用技嘉X870AORUS TACHYON ICE主板搭配9800X3D处理器,创下7.3GHz超频新纪录并通过CPU-Z认证。主板专为超频设计,支持D5黑科技内存优化技术,提升带宽降低延迟,适合各类玩家轻松体验高性能。

  • iQOO 15全球首发三星M14 2K珠峰屏:史上最好的2K屏

    iQOO于9月23日举行iQOO 15电竞性能技术沟通会,公布新机屏幕细节。该机全球首发2K三星珠峰屏,采用最新发光材料M14,并首发2K+LEAD OLED显示技术,通过创新光刻工艺去除偏光层,提升透光效率。相比上代,发光效率提升40%,功耗降低44%,使用寿命延长50%,拖影减少60%。屏幕手动峰值亮度达1000尼特,全屏峰值2600尼特,局部峰值6000尼特。对比iPhone 16 Pro Max的1.5K屏,iQOO 15的2K屏功耗更低,色彩覆盖达P3色域的1.18倍,显示效果更通透。

  • 性能超越GPT-4o及Qwen2.5-VL,百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

    百度发布超轻量级文字识别模型PP-OCRv5,仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型,尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别,适用于教育、医疗、法律等多行业数字化需求,累计下载量超900万,是GitHub上唯一Star数超5万的中国OCR项目。

  • 新品|灵动式三维扫描系统NimbleTrack Gen2震撼来袭!

    思看科技9月17日发布新一代NimbleTrack+Gen2智能无线三维扫描系统。该系统采用全无线设计,无需贴点,最高精度达0.025mm,支持120FPS高速扫描,单站最远跟踪距离4.2米。创新融合跟踪式与手持式双模式,可覆盖中小型精密件到大型工业件的全场景测量,助力工业检测向高效化、智能化升级。

今日大家都在搜的词: