电力的保障一直是数据中心机房维护体系的头等重要事项,通过实施应急发电演练,建立了可靠的应急预案机制,最大限度的降低电源中断对网络传输质量的影响。
一、机房电源中断预案
1.在接到停电通知的情况下:
1)计划性停电通知要确保综合部、工维机房管理部对口人接到通知(提前将对口联系人备案在物业处),机房管理员接到计划停电通知后,升级到调度中心进行信息发送,同步进行邮件通知相应应急小组成员(请关注公众号:通信电源人)。并与负责组长及责任领导电话告知,确保已经接收到本次停电的时间及可能发生的情况。
2)维部进行发电应急预案小组成员通知,提前做好机房发电预案要求的准备工作,将相应的发电机、连接线、人员安排到位,各司其职,随时待命现场,做发电准备工作。确保停电时刻的电力安全及机房用电的保障措施,提前调度安排好相应人员做好保障用电的措施。
3)计划停电时间开始后,马上启动应急发电操作,按照机房发电操作步骤实施阶梯供电的步骤,恢复市电保障。并进行现场值守及设备工作确认,确保全部正常后电话告知调度中心及维护体系领导。
2.在没有接到任何通知,突然发生停电的情况下:
确认停电线路,停电时刻,停电时间等要素,启动核心机房发电应急预案。
A:值班网管工作流程:
(1)值班网管监控到核心机房停电,第一时间告知工维部、网络部、运维部应急小组组长。信息传达到工维部机房管理员(一主一备),告知停电开始时间。要求在停电5分钟内将消息传达到调度中心,各应急小组组长。如无法联系上,进行升级到责任领导-工维部经理经理处。
(2)网管将停电信息电话传达后,进行调度派单,确保全部的应急小组成员都收到本次故障停电的信息。然后进行机房中设备的检查,包括:UPS设备主机、各核心设备、汇聚设备、服务器、语音系统等。检查是否受影响。同时启动机房降温措施(降温方案:初步为加装抽排风设备、增加大风扇排风形成热量流动降温)
(3)实时监控设备及UPS工作情况,包括:电量下降情况,设备工作正常情况,每15分钟通报一次电量情况。
B:运维部应急工作流程:
(1)运维应急同事接到故障通告后,第一时间往停电现场赶,到现场配合网管/工维部门进行设备仪器的检查、客服语音系统的保障,应急发电的协助。
(2)现场配合进行机房降温散热措施实施,实时检查网络设备的工作情况。
C:运营质量管理应急工作流程:
(1)调度中心值班人员接到网管监控调度信息后,第一时间将故障信息记录并发故障通告到相关应急成员,并电话通知各应急小组组长是否知悉。
(2)进行客服调度系统的设备工作运行系统检查,特别语音系统级坐席电脑,是否有问题,如发现工作系统有异常,及时与运维应急小组成员沟通,进行检查处理。
(3)实时关注故障工单流程进度登记,配合应急小组进行人员调度通告(请关注公众号:通信电源人)。
D:工维部应急工作流程:
(1)机房管理员第一时间往停电现场赶,同时进行电话沟通供电公司、物业方等,咨询停电原因,是属于计划性还是突发性停电,预计停电时长,将咨询清楚的结果反馈到应急小组成员中,电话联系物业沟通好需要发电需求申请。
(2)工维应急小组组长接到时间后第一时间往停电现场赶,同时进行发电应急小组成员调度,安排第一时间到场工作开展,并升级通报告知主管领导,对口集团维护中心上报信息。
(2)工维应急小组成员接到停电时间后第一时间往停电现场赶,要求30分钟内必须到场(住机房附近的人员往现场去,较远同事可以进行打车往现场去),先行到处同事配合网管、运维同事启动做好应急发电前的准备:连接线布放、接续、发电机发电前检测油/电/水路检查,确保正常。确保一切就绪后,确认可以进行发电操作后,按照发电操作流程进行发电恢复市电。
(3)网管将监控到停电的相应信息及级别同步发送到运营质量管理部调度岗,由调度岗将相应信息进行工维、运维、网络关联同事进行信息告知,同时报工维主管领导知悉。
E:应急机房发电操作流程:
(1)机房用电系统包括四方面:空调制冷、主/备UPS主机、照明系统、客服调度系统。
(2)发电前考虑4方面系统设备用电功率情况,为保障发电机带动的正常,不能进行同步供电,要区分优先恢复的步骤实施,确认发电机的工作正常。在发电前将需要供电的“空调制冷、主/备UPS主机、照明系统、客服调度系统”的市电输入主开关关闭。防止同步启动时发电机的无法供电保证。
(3)启动发电机,检测发电输出电流通断,待发电机运行稳定后。
第一步启动空调制冷系统的市电输入开关,运维应急小组成员重新启动空调主机(空调因为市电恢复后需要重新启动)观察空调制冷工作是否正常。
第二步启动主UPS设备的市电输入开关,观察发电机运行稳定情况,主UPS主机工作稳定情况,网络设备的工作正常与否。
第三步启动客服系统的市电输入开关,包括(客服坐席电脑、UPS设备、空调制冷等),观察发电机运行稳定情况,设备恢复工作情况。
第四步启动备UPS设备、市电照明的市电输入开关,观察发电机运行稳定情况,备UPS主机工作稳定情况,网络设备的工作正常与否。
(4)发电机启动,市电输入正常后,网管将降温系统的抽排风设备关闭,与运维同事进行所有设备的运行进行全面的检查,确保设备已经是运行正常。
(5)发电机发起市电正常后,工维应急小组安排专人现场值守,及时关注发电机油量情况,同时与油品供应商确认油品配送要求及时间要求,并实时与供电部门确认市电恢复时间。
F:停电过程中突发事项预防:
(1)网管在停电时进行机房确认运行中的UPS工作组、设备组工作状态。主/备UPS工作切换是否正常,在市电中断时UPS是否已经开始进行供电保护。
(2)值班网管对机房中的所有设备进行全面检查,确保所有的设备已经是有主备供电,市电中断后UPS已经正常保障设备工作。同时对机房的温度进行观察,温度是否突然升高。
(3)停电后,UPS处于逆变工作状态,当班人员要每隔15分钟观察一次UPS的蓄电池容量、带负荷情况、机房环境温度,尽量使蓄电池容量大于60%,带负荷小于85%(因为已经有自购发电机应急,尽快要求短时间发起电,减少UPS的放电过度)。
(4)发现机房环境温度大于26℃。当以上指标不能保证时,要及时向机房管理员汇报,同时上报责任领导知悉,网管预案小组成员经过慎重讨论,适时采取关闭不必要网络的网络设备、加强通风降温等措施尽量延长关键设备运行时间。
二、应急发电机的油品保障措施
发电机正常启动后,需要做到油品及时供应,具体保障措施方案为:
1.确认多家供应商进行油品供应,签署油品供应协议,确保油品的供应充足。
2.油品的供应以应急小组成员通知后开始准备,协议要求是6小时内送货到场。
3.只要进行发电一小时以上,则必须在停止发电后补充满油品,确保发电机随时都是满配油品保障中。
4.油品的零购是属于公安部门的监管,所以分公司提前将资料向公安部门报备,在公司因为特殊原因有零购油品需求,在公安部门已经有分公司备案资料下,每次使用零购油品进行公安部门盖章申请。可以随时进行购买。
三、恢复交流电后的处理措施
打开电力室和网络机房空调市电开关,并将调节温度设定为20℃。首先恢复机房制冷系统的正常工作。
1.等供电稳定后(一般在恢复市电10分钟后),闭合主/备UPS设备空气开关,恢复给主/备UPS交流供电。观察并确认UPS转换为交流稳压和浮充状态(请关注公众号:通信电源人)。
2.闭合客服系统的主空气开关,恢复客服系统的交流供电,并观察设备工作运行情况。
3.观察10分钟后,确保所有网络及设备、UPS设备组工作稳定后,将发电机停止发电,并将情况报告给调度及主管领导。
4.应急小组将发电的物资进行收拾整理存放好,并进行记录发电机的工作时间及油/水/电路的切断。机房的降温设备的关闭确认及物资收拾整理存放好。
5.将处理情况做详细书面记录,请相关人员签字确认并报集团公司信息化系统管理平台上填写相关记录。
空调故障处理流程图
四、发电机的日常维护措施
对于柴油发电机来说,由于它不是日常的主要供电设备,所以日常的维护保养主要包括以下几个方面:
1.定期检查和更换柴油过滤器和机油过滤器;
2.定期清理检查进气过滤器,并在固定的周期进行更换(或者根据现场的工况和进气过滤器的透气程度进行更换);
3.定期检查和清理电池组接线柱,保持接线柱清洁;
4.定期检查电池组的充电状态,保证良好的充电效果;
5.定期检查风扇皮带的状态,确保无损伤和处于正常的松紧度;
6.定期检查冷却液的状态,确保满足要求;
7.定期检查或者更换柴油机机油,确保油位正常;
8.冬天寒冷季节要确保机组预热装置正常工作,以便在需要启动发电机时能正常启动。