【IT168 案例】
故障背景
近日接到某公安机关信息中心电话,反应整个公安系统传输数据丢包。虽然个机房内网络通信正常,但是办公区域都访问服务器都会丢包。导致视频会议传输不正常,严重影响正常办公。
故障重现
通过与客户沟通,类似网络故障已经持续数月,故障原因不明,故障现象为公安系统内部无规律丢包1-2%,影响网络数据传输。其中服务器之间ping的丢包率最多,远端用户ping服务器丢包较少,部分用户ping上级机构不丢包。服务器区内的一台管理主机ping多台不同网段,不同位置的IP有时会同时丢包。
故障分析
由于全网都有掉线现象,我们首先利用科来网络分析系统抓取核心交换机上的数据包,判定是否由于网络阻塞、网络攻击等其他原因造成无规律掉线的情况。
我们用服务器区的管理主机144.196ping服务器128.8抓取数据包。由于是双向镜像,我们可以看到数据包转发的情况很正常。但是会有ICMP请求转发出去以后没有收到应答的现象,ICMP返回丢包信息。
为了进一步找到故障原因,并且服务区数据包丢包较多,所以我将抓包点下移到服务器区的汇聚交换机。
这次抓包我们抓取同一汇聚交换机下的一台服务器与一台计算机之间的icmp协议。同样的我们发现数据包被正常转发,而直连的主机并没有应答。
又经多次测试累计发现:
主机144.196发送606个请求数据包,接受到595个回应数据包。
交换机抓包128.39接受598个请求数据包,发送595个回应数据包。
通过这两组数字证明主机144.196到交换机之间已经存在丢包现象。主机128.39与交换机之间同样存在丢包现象。为进一步确定故障点,我们在服务区内的汇聚交换机直连一台装有科来网络分析系统的笔记本。
我们在服务器端ping新添加的这台笔记本电脑。服务器端ICMP显示丢包时,我们停止抓取数据包。发现交换机抓包与直连的主机抓取的数据包成比例为2:1。如:服务器共发送101个数据包,丢失1个数据包。交换机抓到请求包200个(双向抓包),而新直连的主机抓取100个。说明在三层转发二层传输上数据都正常的进行发送和处理。只是在数据包发送的时候,有个数据包没有发送到交换机就已经丢失了。我们进入机房查看网线物理状态,发现部分网线使用的是非屏蔽超五类双绞线,并且强电与网线同走的一个线路。同时我们在一台服务器同时ping多网段多区域的主机时,经常出现同一时间多个ping包丢失。初步证明是强电传输时对信号造成干扰数据传输,最终产生无规律丢包的现象。
故障结论及解决办法
丢包是由于服务器区大量使用非屏蔽双绞线,并与强电布线相同导致强电干扰造成的。远端ping服务器丢包是因为远端到核心不丢包,所以丢包较少。服务器ping服务器丢包多是由于进出交换机的线都受干扰造成的,所以丢包。远端ping向上级单位不丢包是因为汇聚与核心到上联单位都是由光纤,并且不通过服务器传送数据。Ping多主机同时丢包,是由于发送请求包时被电磁干扰信号,交换机无法识别数据包造成丢包现象。
最后客户采用电缆与数据线缆分开,并采用屏蔽双绞线进行布线,全网丢包现象就没有再出现。