首页 > AI头条  > 正文

OpenAI发布ChatGPT宕机故障详细报告:只因一个小更改导致

2024-12-16 14:53 · 来源: AIbase基地

上周(12月11日)OpenAI 的 ChatGPT 和 Sora 等服务发生了长达4小时10分钟的宕机事件,导致众多用户受到影响。现在,OpenAI正式发布ChatGPT宕机故障详细报告。

image.png

简单的说这次故障的根本原因是一个小的变更,却导致了严重的后果,工程师们在关键时刻被锁在了控制面之外,无法及时处理问题。对于此次故障,OpenAI 的工程师在发现问题后迅速展开了多项修复工作,包括缩减集群规模、阻止对 Kubernetes 管理 API 的网络访问以及增加 Kubernetes API 服务器的资源。经过几轮努力,工程师们终于恢复了对部分 Kubernetes 控制平面的访问,并采取措施将流量转移到健康的集群中,最终实现了系统的全面恢复。

事故发生在太平洋标准时间下午3点12分,工程师们为收集 Kubernetes(K8S)控制面指标而部署了新的遥测服务。然而,由于该服务的配置无意间过于广泛,导致每个集群中的每个节点同时执行资源密集型的 K8S API 操作。这一情况迅速造成了 API 服务器的崩溃,从而使得大多数集群的 K8S 数据面失去了服务能力。

值得注意的是,虽然 K8S 数据面在理论上可以独立于控制面运行,但 DNS 的功能依赖于控制面,这使得服务之间无法相互联系。当 API 操作过载时,服务发现机制受损,导致了整个服务的瘫痪。虽然问题在3分钟内就被定位,但由于工程师无法访问控制面进行服务回滚,导致了一个 “死循环” 局面。控制面崩溃使得他们无法删除有问题的服务,进而无法进行恢复。

OpenAI 工程师们随即开始探索恢复集群的不同方法。他们尝试缩小集群规模以减少 K8S 的 API 负载,并阻止对管理 K8S API 的访问,以便服务器可以恢复正常运转。此外,他们还扩大了 K8S API 服务器的资源配置,以便更好地处理请求。经过一系列努力,工程师们终于重新获得了对 K8S 控制面的控制,得以删除故障服务并逐步恢复集群。

在此期间,工程师们还将流量转移到已恢复或新增的健康集群中,以降低其他集群的负载。然而,由于许多服务试图同时恢复,导致资源限制饱和,恢复过程需要额外的手动干预,部分集群恢复耗时较长。通过这次事故,OpenAI 有望总结经验,避免在未来遇到类似情况时再次被 “锁门”。

报告详情:https://status.openai.com/incidents/ctrsv3lwd797

划重点:  

🔧 故障原因:小的遥测服务变更导致 K8S API 操作过载,造成服务瘫痪。  

🚪 工程师困境:控制面崩溃使得工程师无法访问,导致无法进行问题处理。  

⏳ 恢复过程:通过缩小集群规模和增加资源等手段,最终恢复了服务。

  • 相关推荐
  • OpenAI发布ChatGPT Agent智能体:支持写代码、做PPT、分析金融

    OpenAI推出ChatGPT智能体,整合网页交互、数据搜索与多模态协作功能,可完成代码生成、PPT制作、金融分析等复杂任务。该智能体融合Operator的网页自动化操作、Deep Research的数据分析能力及优化后的GPT-4对话引擎三大核心模块。目前面向付费用户开放,Pro版近乎无限使用,其他版本每月限50次任务。OpenAI承认其仍存在金融建模需人工验证、非英语文本解析准确率低等技术局限,并

  • 刚刚,OpenAI通用智能体ChatGPT Agent正式登场

    ​Agent AI 时代,比我们想象中来得要早一些。 北京时间周五凌晨,OpenAI 突然开启了新产品直播。 本次发布的是全新的 ChatGPT Agent,它实现了通用智能体(Agent)能力的关键升级。

  • A日报:Kimi开放平台上线Kimi Playground;OpenAI重磅发布ChatGPT Agent;Suno推人声替换功能

    【AI日报】汇总了近期AI领域重要进展:1)月之暗面推出Kimi Playground平台,实现从对话助手到智能助理的转变;2)OpenAI发布ChatGPT Agent,支持自主执行浏览、购物等任务;3)Suno发布v4.5+版本,新增人声替换等音乐创作功能;4)谷歌Veo3视频生成模型上线,支持文本转视频;5)全球首个直播流扩散模型MirageLSD发布,实现实时视频转换;6)VSCode编程助手Traycer提升大型代码库处理效率;7)ART框架支持Python一键训练AI Agent;8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低;9)Mistral AI推出Le Chat挑战ChatGPT;10)百度小度上线首个支持物理交互的MCP Server;11)Lightricks的LTXV模型实现60秒高质量视频生成;12)开源模型LTX-Video13B支持30倍速高清视频生成。

  • ChatGPT们重塑了对话框,钉钉今天要重塑表格

    ​自从1979年,丹·布里克林(Dan Bricklin)和鲍勃·弗兰克斯顿(Bob Frankston)在苹果当时划时代的 Apple II 电脑上做出了第一张可以自动计算和更新的电子表格 VisiCalc 后,表格就成为了计算机用数据方式理解人类世界的基座。不过,在更多的时候,没人这样讨论它。横横竖竖几个格子,表格无处不在,它看起来太普通了。 然而计算机诸多繁荣的根基,都建立在一张张表格之上,无�

  • AI日报:12306 MCP Server上线;百度推AI搜索助手Tizzy.ai;ChatGPT录音模式面向Plus用户开放

    【AI日报】今日AI领域重要动态:1)百度推出无广告智能搜索助手Tizzy.ai,整合影视资源与深度思考功能;2)12306开源火车票查询引擎上线,采用FastAPI架构实现秒级响应;3)ChatGPT向Plus用户全面开放录音功能,支持实时记录与内容总结;4)开源SaaS模板FireGEO助力快速构建现代化Web应用;5)国产工具ReadMeX可一键生成高质量GitHub文档;6)百度AI助手新增视频通话功能,支持方言识别;7)Jacky

  • 谷歌24亿收购Windsurf击败OpenAI,Meta/微美全息竞相扩充AI战略布局

    谷歌以24亿美元收购AI编程初创公司Windsurf,原计划由OpenAI斥资30亿美元收购的交易突然取消。Windsurf年收入已达1亿美元,其核心团队将加入谷歌DeepMind。同时,Meta收购AI语音公司PlayAI,加强自然语音生成能力。微美全息等企业也在积极布局"AI+"赛道,推动多场景应用。全球科技巨头正通过收购和人才争夺加速AI领域布局,AI技术已成为推动行业变革的核心引擎,未来竞争将围绕技术创新和商业化应用展开。

  • “数龙杯”作品终审完成 6项桂冠将在ChinaJoy揭晓

    7月23日,"数龙杯"全球AI游戏及应用创新大赛在上海举办线下路演活动。20余支AI作品团队参与展示,覆盖AI游戏开发、教育、音乐、心理健康等多个创新领域。参赛项目包括海艺互娱的AI艺术创作工具、极测信息的游戏质量测试系统等,展现了AI技术对游戏创作逻辑和用户体验的重塑。大赛由世纪华通发起,联合行业协会、投资机构等共同举办,旨在挖掘优质AI项目并搭建跨界交流平台。最终结果将于8月1日在ChinaJoy AIGC大会上揭晓。

  • AI日报:字节发布同声传译模型Seed LiveInterpret 2.0;秘塔搜索API上线;Lovart AI正式版全球发布

    AI日报栏目报道了多项AI领域最新进展:1)字节跳动发布端到端同声传译模型Seed LiveInterpret 2.0,实现中英高质量实时翻译;2)秘塔搜索API上线,提供低价多模态搜索服务;3)Lovart AI正式版发布,作为首个AI设计Agent重塑创作流程;4)李沐团队推出Higgs Audio v2语音合成模型,融合千万小时训练数据;5)OpenAI开发Sora2视频生成模型,与谷歌Veo3展开竞争;6)OpenAI与Oracle合作扩展Stargate项目,�

  • API攻击年增超162%,瑞数信息重磅发布《API安全趋势报告》

    瑞数信息发布的《API安全趋势报告》指出,2024年API攻击流量同比增长超162%,占所有网络攻击的78%。报告揭示三大特征:1)攻击规模化,自动化工具普及使单次扫描可覆盖数千API资产;2)AI技术加持,42%攻击采用动态变异特征绕过传统检测;3)供应链风险突出,61%攻击通过单个漏洞横向渗透。报告建议企业构建全生命周期安全框架,覆盖设计、开发到运营各环节,实施业务逻辑防护、细粒度访问控制及LLM专用防护。以某电信运营商为例,部署防护方案后三个月内显著提升安全能力。报告强调,API安全需从技术防御转向业务智能防护,成为企业数字化免疫力的核心。

  • TECNO发布全球最薄三折概念机PHANTOM Ultimate G Fold

    TECNO发布PHANTOM Ultimate G Fold概念机,采用创新双屏内折设计,配备9.94英寸柔性大屏,折叠状态下厚度仅11.49mm,展开后最薄处3.49mm,刷新三折手机轻薄纪录。其核心创新在于独特的G型三折结构,通过左右双内折实现屏幕完全内藏保护,并配备外屏保证折叠状态下的常规使用体验。该机采用精密双铰链系统,支持多角度悬停,搭配2000MPa高强度钢铰链和0.3mm超薄钛纤维背板,兼顾强度与轻薄。量产版将搭载高性能芯片、多焦段三摄系统和超5000mAh电池,重新定义旗舰折叠屏体验。

今日大家都在搜的词: