事件背景与影响范围
2022年12月18日,阿里云香港机房发生持续超24小时的大规模服务中断,涉及可用区C的ECS、EBS、OSS等核心云服务。此次故障影响澳门金融管理局、加密货币交易平台OKX等关键机构,成为阿里云运营史上最严重的区域性事故。
冷却系统失效触发连锁反应
故障根源在于水冷机组的设计缺陷与操作失误:
- 主备冷机共享水路循环系统,导致气阻故障无法切换备用设备
- 冷机控制系统隔离失败后,机房温度骤升至40℃以上
- 手动补水排气操作耗时3小时仍无法稳定运行
消防喷淋误触发加剧故障
高温环境意外激活消防系统导致二次损害:
设备类型 | 受损比例 |
---|---|
电源柜 | 40%进水 |
服务器机柜 | 3列完全损毁 |
喷淋系统直接造成硬件短路,部分服务器需数据完整性验证后方可重启。
应急处置与恢复时间线
工程师采取分阶段恢复策略:
- 10:30启动服务器降载处理
- 12:30冷机供应商介入诊断
- 15:20首台冷机恢复制冷
- 19:47启动分批服务器上电
基础设施设计的系统性反思
该事件暴露三大核心问题:
- 制冷系统缺乏独立冗余设计
- 消防系统未考虑电子设备防护
- 故障演练未覆盖复杂场景
阿里云后续优化了冷机群控策略,建立跨机房应急散热通道,并将消防系统升级为气体灭火装置。