2025-05-22 10:06:45
291

阿里云香港机房因何故障致服务中断超24小时?

摘要
阿里云香港机房因冷却系统设计缺陷引发连锁故障,主备冷机共享水路导致切换失败,高温触发消防喷淋造成硬件损坏。事故暴露基础设施冗余设计不足,促使阿里云优化制冷架构与应急预案。...

事件背景与影响范围

2022年12月18日,阿里云香港机房发生持续超24小时的大规模服务中断,涉及可用区C的ECS、EBS、OSS等核心云服务。此次故障影响澳门金融管理局、加密货币交易平台OKX等关键机构,成为阿里云运营史上最严重的区域性事故。

冷却系统失效触发连锁反应

故障根源在于水冷机组的设计缺陷与操作失误:

  • 主备冷机共享水路循环系统,导致气阻故障无法切换备用设备
  • 冷机控制系统隔离失败后,机房温度骤升至40℃以上
  • 手动补水排气操作耗时3小时仍无法稳定运行

消防喷淋误触发加剧故障

高温环境意外激活消防系统导致二次损害:

关键设备受损情况
设备类型 受损比例
电源柜 40%进水
服务器机柜 3列完全损毁

喷淋系统直接造成硬件短路,部分服务器需数据完整性验证后方可重启。

应急处置与恢复时间线

工程师采取分阶段恢复策略:

  1. 10:30启动服务器降载处理
  2. 12:30冷机供应商介入诊断
  3. 15:20首台冷机恢复制冷
  4. 19:47启动分批服务器上电

基础设施设计的系统性反思

该事件暴露三大核心问题:

  • 制冷系统缺乏独立冗余设计
  • 消防系统未考虑电子设备防护
  • 故障演练未覆盖复杂场景

阿里云后续优化了冷机群控策略,建立跨机房应急散热通道,并将消防系统升级为气体灭火装置。

声明:文章不代表云主机测评网观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
回顶部