[2023ODCC大会]阿里刘国良:数据中心供电仿真系统及其应用
9月14日,2023开放数据中心大会智能运营论坛在北京国际会议中心顺利召开。阿里云计算有限公司产品经理刘国良解读了本次峰会正式发布的《数据中心电力仿真系统及其应用白皮书》。
刘国良指出,数据中心的电力系统为IT设备提供7*24不间断的电力供应,是数据中心稳定运行的基础。为了实现7*24不间断的电力供应,数据中心电力供应架构中使用了大量的冗余备用、备自投、备自投闭锁等设计,这些设计增加了系统的稳定性和健壮性,同时也使系统的复杂性成倍增加。
为了确保供电系统出现故障时能快速定位和恢复,在系统进行变更或维护前能准确评估验证和规避风险,在变更过程中能准确识别预期外的事件并及时停止变更避免故障范围扩大。运维人员需要熟练掌握这个复杂的供电系统的架构和运行逻辑,并能实时掌握系统的运行情况和变化,对人员的技术能力有着极高的要求并且处理效率较低。这时就需要一种智能化的平台能力帮助运维人员快速预测、发现和定位这类问题。
阿里云研发的数据中心智能运维系统将数据中心电力设备实时监控、电力系统拓扑、电力仿真系统、变更管理及事件应急结合到一起。在变更进行前,根据变更流程分析模拟出电力系统的变化情况,自动识别出变更方案中可能存在的问题,提前预见风险,降低高风险变更方案导致数据中心故障的概率。在变更进行中,在现场运维人员进行每一步操作前,将配电系统的实时情况与仿真结果进行对比,符合预期后才可进行后续操作,降低误操作导致数据中心故障的概率。在变更进行后,针对导致故障的变更方案进行仿真复现,根据模拟结果分析导致故障产生的原因,总结经验吸取教训,为数据中心稳定运行沉淀经验数据。在事件发生时,将配电系统的状态与平台中存储的系统正常状态比对,找出异常点,并结合电力系统的运行原理(上下游、电气综保等),快速定位出导致此次电力事件的根因,将定位结果提供给运维人员,帮助快速恢复、及时止血,避免电力事件升级为电力故障。
最后,刘国良表示目前基于电力仿真的智能化运维系统已应用到阿里云数据中心,覆盖了85%以上的电力变更,大幅降低电力变更风险;覆盖70%电力事件,故障定位时间<1分钟,准确率90%以上。
白皮书联系人:晁怀颇
邮箱:huaipo.chp@alibaba-inc.com
智能运营工作组联系人:许老师
手机:18511665802
邮箱:xukexin@caict.ac.cn