首页 > 业界 > 关键词  > Oobleck最新资讯  > 正文

研究团队开发开源大模型训练框架 Oobleck 提供快速且有保障的故障修复

2023-12-19 17:45 · 稿源:站长之家

要点:

  • 密歇根大学的研究团队开发了一种名为Oobleck的开源大型模型训练框架,利用管道模板的概念,提供了快速而有保障的故障恢复,避免训练吞吐量下降。

  • Oobleck的设计核心是管道模板,这是针对给定节点数量的训练管道执行的规范,用于实例化管道副本。这些模板在逻辑上等效(可以一起用于训练相同的模型),但在物理上是异构的(使用不同数量的节点),从而在保障容错性的同时提供高吞吐量和快速恢复。

  • 与现有框架相比,Oobleck是第一个利用大型语言模型固有冗余进行容错的框架。通过使用预生成的异构模板,它提供了高吞吐量、最大利用率、有保障的容错性以及在故障恢复时避免检查点或重算方法的开销。

站长之家(ChinaZ.com)12月19日 消息:随着对生成式人工智能技术需求的激增,大型语言模型的训练和容错性要求也在不断增加。为应对这一挑战,密歇根大学的研究人员开发了一款名为Oobleck的开源大型模型训练框架。该框架采用管道模板的概念,为大型模型的预训练提供了快速而可靠的故障恢复机制。

image.png

项目地址:https://github.com/SymbioticLab/Oobleck

传统框架在大型语言模型预训练时缺乏系统支持,而Oobleck通过引入管道模板的概念创新性地解决了这一问题。这些管道模板在逻辑上等效,但在物理上是异构的,允许在训练时利用固有的冗余来提高容错性。相比于现有方法,Oobleck的优势在于其高吞吐量、最大利用率以及对故障的有保障快速恢复,而无需使用检查点或重算方法。

Oobleck的执行引擎在训练作业开始时,根据最大同时容忍的故障数量实例化至少f+1个异构管道。在故障发生时,框架通过简单地从预计算的管道模板重新实例化管道来进行恢复,避免了在运行时寻找新的最佳配置的繁琐分析。因此,使用预生成的管道模板总能够保证Oobleck从f个或更少的故障中恢复。

这种管道模板的引入不仅是对问题发生后缓慢处理或对所有可能情景进行规划的一种平衡,而且为分布式计算系统中的高效而有效的弹性提供了示范。未来,研究人员计划将管道模板应用于改进各种生成式人工智能应用的弹性,首先从推理服务系统开始。

总的来说,Oobleck的开发标志着利用固有冗余提高容错性的新里程碑,为大型模型的高效训练和故障恢复提供了一种创新性的解决方案。

举报

  • 相关推荐
  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • 中文大模型忠实性幻觉评测:豆包大模型幻觉率仅4%,位居全球收之首

    SuperCLUE+最新评测显示,豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首,超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异,尤其在中文理解任务上国内领先。基于MoE架构设计,其综合性能超过多款超大规模预训练模型,推理成本显著降低。截至2025年3月,豆包大模型日均调用量达12.7万亿tokens,是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉,6月11日将发布豆包大模型最新升级进展。

  • 一场文心大模型的「AI马拉松」

    对于百度而言,既要保持长期主义的战略定力,也要在技术路径上灵活应变,这种「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。 2025年,模型能力的重要性依然无需多言。 从预训练的角度来看,虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说,预训练数据即将用尽,但海量的图像、视频等多模态数据资源依然有待挖掘。 从后训练的角度来看,强化学习新范式正�

  • ClimatePartner认证全攻略:如何通过绿舟快速实现产品“绿标”突围

    本文介绍了ClimatePartner认证如何帮助亚马逊卖家提升竞争力。该认证通过量化产品全生命周期碳排放,制定减排计划并购买碳抵消额度,最终实现碳中和目标。获得认证的产品可显示亚马逊"绿标",享受流量扶持等权益,数据显示带绿标产品页面浏览量平均增长10%,销售额提升超12%。认证流程包括产品评估、碳足迹核算、减排方案制定和碳抵消购买,通常需8-12周。费用包含建模费、系列官费、年度证书费和碳抵消成本四部分。认证有效期为1年,需每年续费。专业服务商绿舟能缩短认证周期至4-6周,并提供透明收费和全链路支持,已助力安克创新等品牌实现销量增长和碳效提升。ClimatePartner认证不仅是流量密码,更是品牌ESG价值的重要体现。

  • 超越OpenAI?Claude4大模型能连续工作7小时,创SWE-Bench得分纪录

    过去的 AI 模型往往只能维持几分钟的“注意力”,而 Opus 4 的表现意味着,AI 终于具备了完整工作日级别的协作能力……

  • 2025上海车展:BBA等八成主流车企已接入豆包大模型

    2025年4月23日,第二十一届上海国际车展开幕。本届车展以"新能源"和"智能化"为核心主题,吸引近千家中外汽车企业参展,展出车辆超千辆,其中新能源车占比超七成。奔驰、奥迪、长安马自达等品牌展示了基于豆包大模型的智能座舱系统,交互效率提升50%,唤醒速度仅0.2秒。火山引擎与多家车企达成战略合作,共同推进AI大模型在智能驾驶、数字座舱等领域的�

  • 持续霸榜!可灵2.0模型登顶全球视频生成大模型榜单

    快手旗下可灵AI 2.0模型在权威AI评测中表现优异,以1124分超越自研1.6版本,连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示,自2023年6月上线以来,可灵AI全球用户突破2200万,月活激增25倍,累计生成视频1.68亿个、图片3.44亿张。商业化方面,其单月流水已超千万元,并与伊利、vivo等头部品牌达成深度合作,展现出AI视频生成技术的广阔商业前景。

  • 大模型时代:内容产业智变新浪潮

    腾讯研究院院长司晓在第15届中国(深圳)国际文化产业博览交易会上发表演讲,指出大模型技术正推动文化内容生产从"专业主导"转向"全民共创"。大模型已从工具赋能升级为生态重构,显著提升内容生产效率和质量,如腾讯混元模型支持实时图像生成与调整。AI技术加速影视、音乐等内容创作,如上海民族乐团与腾讯音乐合作的AI音乐会《零·壹 | 中国色》。同时,大模型在理解与交互能力上取得突破,如GPT-4o能准确识别物体细节。腾讯通过"探元计划"推动科技与文化融合,如"云游敦煌"等项目。未来,AI将实现"智力即服务",大幅提升创作效率和质量,推动文化内容产业进入"千人千面"新时代。

  • 李想:理想VLA司机大模型 就是从动物进化到人类

    预训练相当于人类学习物理世界和交通领域的常识,通过大量高清2D和3D Vision(视觉)数据、交通相关的Language(语言)语料,以及与物理世界相关的VL(Vision-Language,视觉和语言)联合数据,训练出云端的VL基座模型,并通过蒸馏转化为在车端高效运行的端侧模型。

  • 保视丽“一种具有抽液和进气功能的二合一快速接头”发明专利获批!

    保视丽(上海)新材料科技公司自主研发的"具有抽液和进气功能的二合一快速接头"发明专利获国家知识产权局授权。该发明攻克了传统接头密封性差、耐腐蚀性不足、操作复杂等技术难题,具有三大优势:1)集成抽液与进气功能,简化安装流程,实现自动化切换;2)独特防回流设计确保化学品的纯净度与安全性;3)卓越的密封性和稳定性,可承受高压复杂工况。目前该技术已应用于超纯HDPE桶等包装材料,在半导体、微电子等领域发挥重要作用。保视丽累计拥有70余项专利,其超纯氟材料与包装材料产品正加速国产替代进程。