业务流程

一般情况下,故障处理均需经历“收集信息→定位故障→排除故障”三个阶段。在收到告警信息后,通过收集故障现象信息、分析故障原因、定位故障、排除故障,使业务恢复正常。

故障处理是指利用合理的方法,逐步找出故障原因并解决。其指导思想是将由故障可能的原因所构成的一个大集合缩减(或隔离)成若干个小的子集,使问题的复杂度迅速下降,最终找到问题的根本原因,并采取合适的措施进行排除。

故障处理的操作流程如图 故障处理流程所示。

图1 故障处理流程

如图所示,当问题定位为集群调度组件问题时,需要进一步定位问题出现的组件: