事件概述
2022年12月18日上午,阿里云香港可用区C机房发生设备异常,导致云服务器ECS、RDS数据库、OSS存储等核心服务中断。此次故障由机房冷却系统故障引发,触发消防喷淋系统导致硬件设备损坏,是阿里云运营十年来历时最长的区域性服务中断事件。
处理过程
阿里云工程师团队采取以下应急措施:
- 09:09 启动冷机主备切换及重启操作
- 10:30 实施机房设备降载处理
- 14:47 对高温区域服务器进行强制关机
- 19:02 分批重启服务器并检查数据完整性
整个处置过程涉及冷机系统修复、消防系统复位、硬件更换等多个环节,累计耗时超过15小时。
彻底修复时间线
关键修复节点包括:
- 12月18日19:47:机房温度恢复稳定
- 12月18日22:50:完成最后一个包间数据安全检查
- 12月19日00:30:所有云服务恢复正常运行
虽然核心服务在19日凌晨恢复,但部分客户的数据完整性验证工作持续到19日午间完成。
后续改进措施
阿里云针对该事件推出三项改进计划:
- 建立冷机系统独立冗余架构,消除主备共用风险
- 优化消防系统触发阈值算法,增加人工确认环节
- 升级全球数据中心实时监控系统,缩短故障响应时间
同时阿里云已启动SLA赔付流程,承诺对受影响客户进行服务补偿。
本次香港机房设备异常事件在故障发生36小时内完成彻底修复,暴露了基础设施运维中的系统性风险。阿里云通过技术架构升级和运维流程优化,将同类故障平均修复时间(MTRS)缩短至6小时以内,并建立跨区域灾备方案提升服务连续性。