-
1 烽火ONU下联设备AR...
-
2 承载设备选型不当...
-
3 用户路由器问题导...
-
4 PON网管操作导致OL...
-
5 家庭网关设备长发...

案例36 烽火ONU下联设备ARP攻击导致同一PON口下所有用户pppoe拨号困难

AN5116-02系列EPON设备,下挂09A,07A的ONU,全部为FTTB设备。某日该OLT有一个PON口下带的FTTB用户出现拨号678的故障,但拨号并不是每次都拨不上,有时拨号十次或二十多次偶尔还是能够成功拨到BRAS的,拨通后宽带业务使用正常,无掉包或网速慢等问题。网络拓扑如下:

1、ONU设备工作状态是否正常,有无断电、断纤等告警;
2、设备丢包率是否正常;
3、BRAS地址池是否过满;
4、设备设置MAC地址老化时间是否适合;

1、检查ONU到OLT的物理通道是否正常,首先对该处进行OLT上联、ONU下联进行PING包处理,目的是检查整个通路到BRAS的情况。实际分析处理无物理通路故障。
2、检查OLT设备的FDB表,以及投诉点07A设备的ARL表。当我们进行拨号的时候,可以在29槽看到上层8505交换机的MAC地址,也可以在EC2槽位上看到用户拨号电脑的MAC地址,并且业务VLAN ID正确;同时看07A设备ARL表,可以看26口上学到的8505的MAC,也可看到用户端口学到的用户电脑的MAC,且VLAN ID正确。由以上信息可以证明在设备内部的VLAN学习及地址转发情况都是正常的,
3、在OLT上联口做拨号测试,进一步判断故障点,挑空电口做测试,发现每次拨号都能成功;再进一步了解情况,做各处的拨号测试,将故障范围缩小在了一个PON口上,即其它几个PON口拨号都正常,仅一个PON口下的共计10台ONU拨号不正常。怀疑存在环回,再检查FDB表,对比29槽和该槽位的地址表,并未发现有EC2板存在上层设备地址的情况,而且此处也设置了ONU ACL,已经杜绝了下联ONU端口环回情况,但不能排除ONU下挂交换机的硬件环回情况,因为此处有大量FTTB_ONU下挂或级联交换机的情况。
4、再继续从抓包分析入手,分别在镜像ONU上联、EC2前面板、OLT上联口等三处同时安排人员,各挂一台电脑,将每次pppoe拨号包的流程进行抓包。实施后发现PPPOE拨号的PADI广播包不是每次都能到达上联口,直到成功发送出上联口才能收到BRAS的PADO回复,那样才能成功拨号上网。而我们从某次pppoe发包,ONU端抓包发现共发送了两次拨号直到第7个PADI广播才收到PADO回复,对比EC2抓包,只收到了总共3个PADI广播包;而上联口当然只收到了一个PADI的广播包,也就是最后一次拨号成功了。反复进行了多次pppoe抓包,都是随机性的拨号成功,有时候拨号十几次才拨号成功。从上述情况看就是因为PADI广播包在ONU->EC2丢失一次,在EC2->GSWC->GUP7丢失一次。请参考下图,ONU处总共发出7次PADI才成功的流程:

得知故障根源后,要确定是什么缘由导致丢弃PADI包才行。与烽火厂家人员联系后,了解到OLT系统内部有广播包的门限限制,我们AN5116-02系统内部每个PON口的广播包带宽是2048kbit/s。我们再次抓包,并且不过滤包,在包中发现有一个MAC为00:27:19:5d:61:62的设备不停的向上层发送大量ARP广播包,不停的查找192.168.1.1的地址是对应哪台设备,它完全把目的地址为ff:ff:ff:ff:ff:ff的广播类型带宽资源占用耗尽,很明显这是属于病毒包。找到该包的VLAN Tag值,立即找出了对应的是一台AN5006-09A设备的端口,立即屏蔽掉该端口业务,发现拨号每次都能正常了,故障解决。赴现场发现该台09A下面下挂一台交换机,这个交换机上没有做任何设置,默认的VLAN 1也没有关闭,导致不停的向上发送ARP包,造成广播类型带宽资源耗尽,致使正常用户拨号受阻。请看下图,大量无用ARP广播包:
总结:
平时我们分析故障抓包总是通过过滤等手段逐步细化定位问题,虽然某些问题如语音可以通过此法逐步定位问题,但此次故障仅过滤pppoed报文不能完全定位出问题,相反抓包不过滤看全部的包,才能发现是其它的ARP攻击包占用了广播包带宽。同时抓包需要在OLT的上联口,EC2盘上,09AONU的端口上分别抓包,分析PPPOE协议的报文是否正确







