腾讯云故障复盘:云API异常导致服务中断
4月8日,腾讯云部分服务出现异常,导致用户无法登录控制台等问题。
腾讯云近日公布了故障复盘及情况说明,故障原因为云API服务新版本向前兼容性不足和灰度机制缺陷。
API升级过程中,新版本接口协议变更,导致旧版本数据处理异常,生成错误配置数据。由于灰度机制不足,异常数据扩散全网,造成API服务异常。
故障持续约87分钟,影响1957名用户。
腾讯云采取了回滚服务和重启API后台等措施,但由于API服务依赖API服务调度,导致循环依赖,服务无法自动恢复。
最终,通过运维手工启动API服务,完成故障恢复。
处理过程:
- 15:23:监测到故障,执行恢复措施并排查原因。
- 15:47:发现回滚版本未能完全恢复,进一步定位问题。
- 15:57:定位故障根因是配置数据错误,设计数据修复方案。
- 16:02:全地域数据修复,API服务逐步恢复。
- 16:05:除上海外地域恢复,定位上海地域恢复问题。
- 16:25:发现上海地域存在API循环依赖问题,通过流量调度恢复。
- 16:45:上海地域恢复,API服务及其依赖的PaaS服务恢复,控制台流量剧增。
- 16:50:请求量恢复正常,业务稳定运行,控制台服务全部恢复。
- 17:45:持续观察一小时,未发现问题,处理过程完毕。
改进措施:
针对此次故障,腾讯云将从系统韧性、变更管理和故障响应三方面进行改进。
提升系统韧性:
- 预定的变更策略模拟演练,缩短恢复时间。
- 优化服务部署架构,避免循环依赖问题。
- 提供API服务逃生通道,快速切换调用方。
强化变更管理与保护措施:
- 完善自动化测试用例库,通过沙箱验证变更内容。
- 实施灰度发布策略,逐步生效更改。
- 引入异常自动熔断机制,中断变更过程。
增强故障响应与沟通能力:
- 升级故障处理流程,实时更新进度和恢复时间。
- 清晰阐述受影响范围、故障根因和修复时长。
- 优化健康状态看板展示逻辑,引入缓存和容灾机制。
腾讯云表示,将汲取经验教训,不断改进服务质量,减少故障影响。
(举报)