公司新闻

多期建设后的动环监控还可靠么?

随着大网建设模式的推广,动环监控系统与大网建设配套同步规划、设计,施工。每期工程项目的设计和建设相对独立,动环监控系统的整体性和可靠性有所下降。同时随着各类机房的撤并、搬迁、改造等工作不断开展,进一步使动环监控系统的整体性和可靠性下降,需要定期专项排查施工建设中的不足,提升意外事件发生时,动环监控系统做为最后屏障的可靠性。

一、事件描述

某分公司节点机房在下午13:41分左右,发生短时停电,发生负载意外掉电事件,2G传输系统无告警,4G传输系统上有告警,部分手机用户4G上网受影响,语音通话未受影响。

随后监控中心对动力环境监控集中系统该机房相应的时间段告警查询,未查询到任何告警。

初步判断为动力环境监集中控系统故障,紧急通知动环厂家现场支持。

动环厂家对动环系统进行初步检查,确认系统运行正常。通过对该机房2年内告警分析,均未发现异常,期间仅进行过一次告警优化(该机房隶属矿区,经常产生5秒以内的市电波动,导致停电告警频繁上报。经综合考虑,该告警延时5秒不会影响告警呈现,后为交流停电告警设延时5秒,极大减少告警量),优化后也未发现异常。

通过系统配置还发现,该节点机房有3台采集器与常规节点机房1台采集器的常规不符,故需要到达事件发生现场进一步分析判断。

二、现场分析

2.1  现场调查

经现场勘查,发现机房面积较大,已超出一般节点机房的管理范畴。该机房共有三套开关电源,四组电池,A电源负载为2G设备,B电源负载为4G设备,C电源负载为骨干设备。

原站址为2G基站,后陆续将周边4G基站和骨干网搬迁到此站址。搬迁工作由工程局全部完成。其中骨干网搬迁时改用4G基站的传输上送。

通过对动环采集器底端日志和告警数据进行分析,发现3台采集器在13:42分左右均有上电初始化日志记录,均没有采集器异常和开关电源告警数据。

经查开关电源监控单元记录,B开关电源没有该时间段的记录,A、C开关电源有交流停电开始和结束历史记录。                                           
虽然事件原因已查出,但按照常理,在开关电源监控单元上有告警记录,采集器底端或动环平台应该有A、C开关电源交流停电告警上报才对。结合“3台采集器在13:42分左右均有上电初始化日志记录”,进一步分析,初步判断3台采集器可能同时断电,并同时上电。
经与传输部门协调,由于骨干传输无本地端口,考虑到未来2G退网,综合考虑接入到4G传输设备的新分配端口上。

该机房采用的动环采集器,虽然有足够冗余的串口,可接入机房内的全部智能设备,但考虑到本次特殊事件情况下,为实现交流停电可靠上报,综合考虑采用2台采集器来实现全部功能
本次事件主要原因为蓄电池单体故障,整组无法放电,导致市电停电负载即断电。

次要原因为在机房整合过程中,缺少对动环系统的整体设计,导致整合后的动环系统有监控盲点。

从本次事件分析过程,可以发现动力环境集中监控系统不但涉及到监控中心的供电、传输等组网规划,随着机房等级的不断提升,机房内的采集器数量配置,采集器的供电、传输、串口都需要进行配套的规划改造。

经过重新规划改造后,可以节省1套采集器,用于其它类似场景的改造,节省投资费用。

后续工作和建议:

1、通过与综合资源沟通,将此机房升级为核心节点,将其保障等级提升。

2、对核心机房、综合服务中心、重要传输节点机房、汇聚机房(多套开关电源和传输设备)等场景进行重点排查,参照最优设计方案,进行专项整治,并做交流停电测试,确保动环监控处于真实有效的工作状态中。