事件概述
2022年12月18日,阿里云香港地域可用区C发生持续超过24小时的大规模服务中断,这是阿里云运营十多年来持续时间最长的重大故障事件。事故根源可追溯至香港电讯盈科(PCCW)机房的制冷系统失效,最终触发连锁反应导致机房设备损毁。
直接原因分析
本次事故的直接原因链包含三个关键节点:
- 制冷设备主备切换失败,导致机房温度持续升高
- 高温触发消防喷淋系统,造成电源柜进水短路
- 紧急扩容系统存在单点依赖,无法快速恢复服务
特别值得注意的是,事故机房为第三方托管设施,制冷系统与消防系统的联动设计缺陷暴露了混合运维模式的风险。
故障处理过程
从监控告警到完全恢复,事件处理历经三个阶段:
- 08:56-12:30:尝试冷机重启与应急散热,温度控制失败
- 12:30-15:20:人工干预导致喷淋误触发,加速设备损毁
- 15:20-次日:分批恢复冷机运行,逐步重启服务集群
处理过程中存在应急预案执行延迟、跨团队协作低效等问题,延长了恢复时间。
影响范围评估
事故波及香港澳门地区多个关键领域:
- 金融系统:澳门金管局核心业务中断
- 媒体平台:莲花卫视等机构网站瘫痪
- 交易系统:Gate.io等交易所暂停服务
特别对加密货币市场造成连锁反应,部分用户账户显示异常数据长达12小时。
经验教训总结
此次事件为云计算行业敲响三记警钟:
- 第三方机房需建立更严格的服务等级协议(SLA)
- 关键系统必须实现跨可用区冗余部署
- 应急响应流程应包含设备供应商联动机制
阿里云后续公布的四大改进措施,包括架构优化和赔付机制调整,标志着云计算服务商开始重新审视基础设施风险。