事件背景与时间线
2022年12月18日,阿里云香港Region可用区C机房因冷却系统失效触发服务中断。09:23开始出现服务器停机报警,10:30机房启动降载处理,至19:47机房温度趋于稳定,21:36大部分服务完成恢复,但受消防喷淋影响的区域延迟至次日凌晨完成数据安全检查。
冷却系统故障原因分析
事故直接原因为机房冷却系统水路循环气阻,导致主备冷机均无法正常运行。具体表现为:
- 主冷机因缺水形成气阻导致停机
- 备冷机因共享水路系统气阻启动失败
- 群控逻辑限制冷机独立运行,需手工调整配置
服务恢复进程与措施
阿里云工程师采取分阶段恢复策略:
- 15:20首台冷机独立运行恢复制冷
- 18:55四台冷机全部恢复正常制冷量
- 19:02启动服务器分批恢复流程
- 21:36完成核心服务验证并恢复访问
影响范围与后续改进
此次事件导致香港可用区C的ECS、RDS、OSS等服务中断超过10小时,直接影响澳门金融管理局、澳门日报等关键机构。阿里云后续宣布将优化三项措施:
领域 | 改进方向 |
---|---|
基础设施 | 冷机主备系统物理隔离改造 |
应急响应 | 建立自动化排水排气机制 |
数据安全 | 强化跨可用区热备份能力 |
本次冷却系统故障暴露了数据中心基础设施的容灾短板,阿里云通过10小时紧急处置完成主要服务恢复,但完全消除隐患仍需硬件改造周期。事件推动云计算服务商重新审视温控系统的冗余设计标准。