-
1 课程内容
-
2 作业




常见故障的通用处理流程,故障处理的流程如图所示。
故障处理流程图
通用处理流程的主要操作步骤如下:
(1) 收集并记录故障信息
介绍收集并记录故障信息的重要性、要求和内容。
(2) 确定故障范围和类别
介绍在常见故障的通用处理过程中如何确定故障的范围和类别。
(3) 定位故障原因
介绍常见故障的通用处理过程中如何定位故障原因,以及故障定位的重要性。
(4)屏蔽/隔离故障
介绍常见故障的通用处理过程中如何屏蔽和隔离故障。
(5)排除故障
介绍常见故障的通用处理过程中如何排除故障。
(6) 查看故障处理结果
介绍常见故障的通用处理过程中如何判断故障现象是否消除。
随着网络规模的扩大,IP网的组网情况也日趋复杂,使IP网的故障原因日趋复杂。因此,我们有必要收集尽可能详尽的信息,以便快速找到定位故障的突破口。
如果在故障处理的初期阶段,就注重收集各种相关的原始信息,可以加快维护人员定位问题的速度,提高故障定位的准确性。
(1)信息收集的要求
鉴于信息收集的重要性,对维护工程师有以下要求:
维护人员要主动收集相关信息。在遇到故障或者故障申告时,一定要先清楚相关情况后再决定下一步的工作,切忌盲目处理。
维护人员应该理解并掌握系统原理和协议知识。这样,在遇到故障或者故障申告的情况下,才能迅速把思路引向问题的焦点。
在接听故障申告电话时,维护人员要善于引导,尽量从多方面、多角度询问相关问题。
维护人员应加强横向、纵向的业务联系,建立与其他局所或相关业务部门(如传输机房等)维护人员的良好业务关系。这对于信息交流、技术求助等都是很有帮助的。
(2)信息收集的内容
故障发生时,需要第一时间收集故障信息。主要收集:
a 故障发生的具体时间。
b 故障现象的详细描述。
c OLT的软件版本。
d 故障后已采取的措施和结果。
e 问题的级别及希望解决的时间。
在获取故障信息以后,接下来需要对故障现象有一个大致的定义——确定故障的范围与类别。
(1)确定故障的范围
确定故障的范围就是确定故障处理的方向,也就是说在什么地方、顺着什么思路去查找故障的具体原因。确定是设备接入的所有用户出现故障还是部分用户出现故障:如果是所有用户出现故障,进一步了解上端设备接入的其他设备或用户是否同时出现故障。如果是部分用户出现故障,进一步了解: 故障用户的业务类型,其他业务类型的用户是否出现故障。 故障用户与正常用户在设备上的接入、业务处理单板是否相同。 故障用户在设备上的分布情况。
(2)确定故障的类别
确定故障的种类(性质)就是确定采用何种方法及手段来分析和解决问题。关于故障的分类,将根据IP网不同的业务进行划分。
尽管有时导致IP网故障的原因十分复杂,但是在某一时刻多种因素同时作用导致IP网故障的概率是很小的。故障原因在某一具体时刻具有单一性。
故障定位就是从众多可能原因中找出这个单一原因的过程,它通过一定的方法或手段分析、比较各种可能的故障成因,不断排除非可能因素,最终确定故障发生的具体原因。准确并快速的定位故障原因是故障处理过程中的重要环节。
a 有利于提高故障处理的效率。
b 有效避免因盲目操作设备而导致故障扩大等人为事故。
c 为采取何种手段或措施排除故障提供指导和参考。
在故障原因最终定位以后,为了避免故障范围的扩大,尽快恢复故障,需要对故障进行屏蔽或隔离。
常用的故障屏蔽或隔离的方法有:
(1)手动重启系统,进行主备倒换。
(2)采用迂回路由,隔离(拔出)负荷分担情况的故障部件。
如果是某项功能或业务造成的故障,可通过如下方式隔离故障:
(1)使用命令关闭该功能。
(2)去激活端口。
(3)使故障业务改走其他正常路由,测试相关业务是否恢复正常。
在屏蔽或隔离故障后,就可以启动排除故障的工作了。排除故障是指采取适当的措施或步骤清除故障、恢复系统的过程。如检修线路、更换部件、修改配置数据、复位单板等。具体操作请参考各业务/功能故障处理操作指导。
在完成故障排除的工作后,还需要根据故障影响的范围,对受影响的相关业务进行验证测试,来确认故障现象是否排除。在故障处理过程中,要对每一步操作内容及操作所产生的现象做详细记录。对处理过程尽可能详细的记录是申请华为技术有限公司进一步技术支持的基础,可缩短进一步处理问题的时间。

在处理故障时,很关键的一点是要确定故障的原因是否在IP网设备上,避免因此造成的人力、物力、财力的浪费。为提高效率,实际操作过程中可以遵循由外到内、由大到小的原则,即先查看外部线缆连接是否牢靠、各指示灯状态是否正常,然后通过控制台查看系统的整体运行状态,最后再查看各个模块的运行状态。
在实际故障定位和故障处理过程中使用常用方法有:告警分析;性能分析;分段处理;仪表测试;对比分析;互换分析;配置数据分析;协议分析等。
通过介绍告警分析法,指导用户查找故障的具体部位或原因,或配合其他方法共同定位故障原因。
告警信息是指IP网告警系统输出的信息,通常以屏幕输出的形式提供给维护人员,具有简单、明了的特点。告警信息包含故障或异常现象的具体描述、可能的发生原因、有哪些修复建议等等,涉及硬件、链路、业务、CPU占用率等各个方面,信息量大且全,是进行故障分析和定位的重要依据。
通过介绍性能分析法,指导用户通过IP网提供的性能统计手段对发生故障的业务进行分析,找出故障环节。
查看系统性能统计信息在各种故障的定位过程中都有可能用到。需要强调的是,针对不同的故障类别,需要查看不同的统计信息。这就要求维护人员要尽可能地熟悉系统的结构和运行机制,同时尽可能多地了解系统能够提供哪些统计信息和如何查看、分析这些统计信息。
通过介绍分段处理法,指导用户在故障现象复杂、可能在多个环节出问题的情况下,将涉及故障的环节逐个排除,最终找出故障环节。
进行分段处理工作的工程师要对OLT的系统结构和原理有深入的了解,对业务故障可能存在的环节了解全面。分段处理具体操作时,一般采用环回配合仪器测试进行故障的排除。
例如:某用户组播节目经常会出现中断,重新点播后又恢复正常。
通过分段分析,故障可能原因如下。
(1) 组播路由器配置问题
(2) 组播服务器问题
(3) 用户机顶盒问题
因此,可以对涉及故障的环节进行逐个排除,最终解决故障。
通过介绍仪表测试法,指导用户利用各种仪器、仪表取得实际的各种性能参数,对照正常的参数值,定位和排除故障。仪器、仪表在故障处理过程中有着不可替代的作用,它以直观、量化的数据直接反映故障的所在,在迅速进行故障定位、提高故障处理效率的过程中发挥着重要的作用。在故障处理中常用的仪器、仪表包括:万用表、光功率计、 可调光衰减器等
例如:可通过光功率计测试光口平均发送光功率,依此判断本端光信号发送模块是否出现异常;可通过万用表在电源调试过程中,进行电压、电阻、电流强度的测试。
通过介绍对比分析法,指导用户如何在故障单一的场合定位和排除故障。对比是指将故障的部件或现象与正常的部件或现象进行比较分析,查出不同点,从而找出问题的所在,一般适用于故障单一的场合。
通过介绍互换分析法,指导用户在备件更换后仍不能确定故障范围或部件的情况下定位和排除故障。互换是指将处于正常状态的部件(如单板、光纤等)与可能故障的部件对调。
在用备件进行更换操作后,仍然不能确定故障的范围或部位时使用。通过比较对调后二者运行状况的变化,判断故障的范围或部位。适用于故障复杂的场合。
互换操作具有一定的风险性,例如:将处于短路状态的单板换到正常的机框后有可能造成正常机框损坏。因此,互换方法的使用需要谨慎行事,要以确保不导致新故障为前提。最好先确认是否和该单板相关,使用没有问题的单板更换原有单板。
通过介绍配置数据分析法,指导用户在新开局或重配置的情况下定位和排除故障。数据配置错误或者更改往往是系统故障的重要原因,配置数据分析是故障定位,尤其是新开局的故障定位不可缺少的一个方法。
通过介绍协议分析法,指导用户在OLT和上层设备对接故障时定位和排除故障。协议分析是指对通过信令跟踪、捕获数据包分析等手段对故障进行分析的方法。协议分析要求维护工程师对协议有深入的了解,掌握各种信令的交互流程,从而能够从获得的信令消息中定位出故障的真正原因。
例如:某用户不能点播组播节目,通过抓包分析后发现,BRAS丢弃了该用户发出的IGMP报文。

IP网应用广泛。通过维护经验,,对常见故障的原因进行分析并提供了障碍处理的一般方法,通过罗列各种典型故障,详述故障处理的过程。
用户使用PPPoE 拨号上网,不成功。出现“678”错误。
![]()
错误码说明:不能连接到PPPOE 接入服务器。过程为先由用户主机广播一个发起分组(PADI),之后接入集中器发送单播的给予分组(PADO )。用户和BRAS 链路中任何一个环节有问题,都可能导致678 故障。原因主要有:
(1) 用户侧:
a. 网络线路连接错误;
b. 网卡工作不正常。包括网卡驱动问题、网卡损坏、或者网卡未插紧等;
c. 拨号软件问题;
(2) 接入设备段:
a. ONU 设备未配置数据或配置数据未下发;
b. ONU 设备问题;
c. 对广播包的抑制;
(3) 上游设备:
a. BAS 故障;
b. 上联口上联交换设备未能透传广播包;
![]()
出现PPPoE 拨号“678”错误可以按照以下的方法进行排查:
(1) 检查用户侧网络连接情况和网卡状况。
a. 网卡状况可以采用ping 同一网段的其他设备验证;
b. 观察Modem 状态,可采用重启Modem 检验;
c. 重新安装拨号软件或重新创建拨号连接;如果上述方法不能解决问题,可转入步骤2 。
(2) 查看ONU 状况。
a. 查看ONU 状态灯的情况,包括检查电源状况,注册情况。如果REG 灯不亮,表明ONU 未注册,此时可以检查光功率是否达到要求。
b. 检查ONU 是否得到配置,如果ONU 没有得到配置,需要通过网管重新下发配置;如果配置正常,可以采用从ONU ping OLT 验证ONU 至OLT的链路状况。
(3)检查上游设备运行情况。
a. 包括上联交换设备是否拦截了广播包,以及BAS 的运行情况。
b. BAS 设置PPPoE 账号绑定也可能造成此错误。
造成此问题的原因是从用户端到上联服务器整个链路中的某一个环节连接不通。可能造成问题的原因比较复杂,需要检查从用户至BAS 的链路,可采用抓包法进行定位。
![]()
用户使用PPPoE 拨号上网,不成功。出现“691”错误。
错误代码说明:输入的用户名和密码不对,无法建立连接。主要原因有:
(1) 帐号和密码输入不正确。
(2)欠费。帐号被运营商停机会出现691 错误;
(3)用户数限制。当一个帐号在在已登录状态时不能再使用此账户拨号。
(4)绑定较验错误。运营商一般会将用户的帐号与设备端口或MAC 地址做绑定,更换 位置或PC 后无法使用,会出现691 错误;
![]()
出现PPPoE 拨号“691”错误可以按照以下的方法进行排查:
(1) 首先确认是否为用户个人原因,用户名密码输入错误等与密码本身无关的行为导致拨号不成功;
(2)如果仍然报告“691”错误,需要局方提供此账号的详细信息。包括是否欠费, 是否有绑定,在错误发生时是否为未登录状态。
总结: 认证系统对账户的限制可能会造成拨号失败,上报“691”错误。另外此问题一般与我方设备无关。
![]()
PPPoE 拨号成功,上网中频繁掉线。
![]()
掉线最直接的原因为主机没有及时收到对端发送的回应报文。可能由多种原因引起。主要有以下原因:
(1)线路条件差,协议数据丢包造成掉线。
(2)PON 系统丢包致使协议包丢失。包括环回导致的丢包。
(3)诸如ARP 欺骗的非线路原因导致收不到对端的协议报文导致掉线。例如ARP 伪造网关攻击。
在确定故障现象之后,
(1) 如果用户线路环境较差,在不改变线路条件的情况下,可以通过取消“回声抑制”、对限速进行限速等功能,尽量改善线路质量。
(2)另外,用户线路的质量好坏对上网影响也很大,如使用了劣质的网线,网线进行了缠绕等,针对用户线路具体情况采取措施。
(3)如果是PON 系统内丢包导致,检查PON 系统是否工作正常,并检查是否有内部环路。
(4)在确定用户线路良好而且PON系统无丢包的情况下,需要排查是否存在类似ARP 攻击的问题。这种情况一般出现在多用户使用路由器拨号共享上网的情况下。
![]()
上网、下载速度慢。
![]()
能够导致上网、下载速度慢的可能原因有很多,下面列举几种典型的原因:
(1)用户线路质量差。
(2) 网络环路导致了网络性能的下降。
(3)设备某端口进行了限速,导致了数据流量的瓶颈。
(4) 网络受到攻击,如ARP 攻击。例如ARP 扫描,网络中出现大量ARP 请求广播包,几乎都是对网段内的所有主机进行扫描。大量的ARP请求广播可能会占用网络带宽资源,会影响用户上网浏览网页、下载速度,甚至会出现丢包的现象。
(5)系统中木马或者病毒,导致计算机远行速度慢。
![]()
首先检查用户线路是否连接良好,如无连接问题可查看设备配置是否启用了限速导致了数据量的瓶颈,如有则将限速放开;上述两种措施不能解决时可通过抓包观察系统内部是否存在异常包或环路情况。对计算机查杀病毒木马,优化系统结构。
DHCP 用户无法获得IP 地址。
![]()
DHCP 在IP 地址分配过程中主要有四个阶段:发现阶段、提供阶段、选择阶段和确认阶段。 任何阶段出现问题都会导致主机无法获取到IP 地址。
可能原因主要有以下几种:
(1) 网络故障,无法连接到DHCP 服务器。
(2)DHCP 服务器关闭或无可用IP 地址。
(3) 用户计算机网卡损坏。
(4)其他。例如网络中存在异常攻击者。
![]()
首先应该确定故障发生的范围,DHCP 服务器下,个别用户还是很多用户无法获得IP 地址。如果是个别用户有此问题,基本可以确定DHCP 服务器的运行状态正常,OLT 以上至DHCP 服务器链路正常。需要检查包括用户PC、ONU 业务配置、广播包抑制等设置是否正常。在检测DHCP服务器连通性时,可以手工配个IP 地址,再ping DHCP服务器,如果可以ping 通, 改回自动获取ip 的模式,在本机运行arp -d 清除缓存。
如果出现很多用户无法获得IP 地址,或者获取过程缓慢,需要检查DHCP 服务器,以及OLT 上联口和DHCP服务器之间的路由器的设置。
用户使用PPPoE 方式拨号上网,拨号成功,但不能上网。
![]()
一般情况下,PPPoE 拨号成功之后,PPPoE 服务器会分配IP 地址、网关、DNS 等设置。而正常的上网过程包括:url 通过DNS 解析为IP 地址,用户通过网关与目标主机通信。可能的原因有:
(1)DNS 服务器设置错误;
(2)DNS 服务器故障;
(3)用户防火墙设置错误;
(4)用户浏览器设置错误;例如代理服务器设置。
![]()
定位方法如下:
(1)首先确认用户设置无误,例如有无代理设置,防火墙设置等。
(2)查看用户IP 配置的获得情况,包含IP 地址、掩码、网关、DNS 服务器等。
(3)确认正确获得之后,验证是否能够正常获得DNS 服务器;具体方法为使用ping 命令ping DNS 服务器,
a. 如果不通,则需检查DNS服务器的连接情况,同时可以 ping某个外网IP ,例如www.baidu.com 的IP 地址,以验证为DNS 服务器故障。如果能通,则基本可以断定是DNS 服务的故障。如果不通,则需检查上游BAS至INTERNET 的连接情况。
b. 如果正常能通,这时再尝试ping 某个外网服务器的IP,如果能通,继续ping 此IP 所对应的URL(例如www.baidu.com) ,如果不通,则可断定原因是DNS 服务器不能提供域名解析服务导致不能上网,这时需检查是否DNS 服务器出现故障。
定位问题之后,之后进行针对性的解决。如果是有用户错误设置引起,应对用户的设置进行更正;如果是DNS 服务器或是PPPoE 服务器问题,可以向局方提供证据,协助解决。
由环回导致的大量广播包,异常的大流量数据,交换芯片地址表混乱等异常现象。
![]()
环回会导致广播包无限制增加,严重影响网络性能;OLT内部环回会使上联设备受到大流量数据的冲击;设备交换芯片的地址表混乱,引发诸如上网掉线等很多问题。
环回主要有以下形式:
(1) ONU FE 端口环回;
(2)OLT 上联口环回;
ONU FE 端口环回时,即数据包经过一个FE 端口发出后未经过任何处理直接通过另一个FE 端口回到ONU,携带同样的源MAC 和目的MAC。交换芯片根据源MAC 更新地址表,可能会导致数据被送至错误的端口,导致丢包,更直观的影响就是上网速度慢,或是经常掉线。有一些现象可以让人很容易联想到可能是环回了,例如,上行收到源MAC 为BAS 服务器MAC 地址的包等。
OLT 上联口环回是由于不同的上联口绑定了相同的VLAN ID 。当某个上联口收到带有该VLAN ID 的下行数据到达时,由于此VLAN ID 同时被绑定到了其他的上联口,所以可能会导致这些数据接着被其他端口转发了出去,在数据量比较大时,会对上层设备造成冲击。
![]()
对不同的环回形式有不同的处理方法。
(1)在定位为某个ONU FE 端口环回后,只需将两个端口的物理连接接触即可,另外,装有双网卡的计算机,如果将两个网卡的IP 配为同一网段也会引起环回。
(2) OLT 上联口环回可以采取端口隔离等临时措施,建议不要将同一VLAN 绑定到不同的上联口,以免出现上联口的环回。
![]()
用户在使用IPTV 业务观看电视节目时,会每隔一段时间发生电视信号中断,切换频道后才能恢复正常,过一段时间后又会中断
![]()
问题现象可以反复重现,我们可以确定整个网络的物理通路是好的,从现象的描述我们可以看出,只要切换频道中断现象就可以解决,结合组播机制,说明只要有新的加入报文发向上游设备,组播流就可以继续下发,由此,我们可以猜测是网络通路中某个设备对上游设备的查询包响应超时,导致上游设备的组播地址老化,使节目发生中断,在新的加入报文到达上游设备时,组地址重新建立,节目恢复。
![]()
采用分段法,在网络链路的各个以太网口处进行抓包分析,确定不能回查询包的原因。


