【IT168 专稿】2006年4月的一天深夜,Agrawal接到一个来自公司数据中心的维护人员的电话——电话中称数据中心面临着一个电力中断的问题。这个数据中心有两条来自不同电网的两条电力线,但是都接在同一个接线箱中来为数据中心供电。正是这样的线路布局和以前被忽略的电力布线管理,导致了那个夜晚令人不愉快的事情。
尽管Agrawal和他的同事们曾对这个运行不同系统的应用的数据中心进行了电力线和UPS的冗余设计,但是百密一疏,它仍然存在一个单点故障:由于两条线都布局在同一个电力接线箱中,如果其中一个电力供应商出了问题,就会导致这个接线盒发生故障;数据中心工作可以立即切换到另一个备用电源上,但它只能坚持90分钟。
接到电话后30分钟内,Agrawal和他的团队都赶到了数据中心。他们对情况进行了分析,意识到了情况的严重性——备用电力正在迅速消耗,迫使数据中心关闭了10-12个相对不重要的系统。而在UPS的电能还能支持大约45分钟的时候,Agrawal决定关闭所有系统。
在UPS的电能还能坚持20分钟的时候,服务器完成了正常的关闭。在关闭后的数分钟内,事先已在现场待命的电源维护专家迅速修好了接线盒,并恢复了整个电力供给。