一般情况下,故障处理均需经历“收集信息→定位故障→排除故障”三个阶段。在收到告警信息后,通过收集故障现象信息、分析故障原因、定位故障、排除故障,使业务恢复正常。
故障处理是指利用合理的方法,逐步找出故障原因并解决。其指导思想是将由故障可能的原因所构成的一个大集合缩减(或隔离)成若干个小的子集,使问题的复杂度迅速下降,最终找到问题的根本原因,并采取合适的措施进行排除。
故障处理的操作流程如图 故障处理流程所示。
图1 故障处理流程
如图所示,当问题定位为集群调度组件问题时,需要进一步定位问题出现的组件:
- 当出现训练的vcjob存在但对应的Pod不存在时,为Volcano问题,需要进一步查看对应的日志。
- 当资源分配不对(查看Pod详情无对应的资源,或NPU资源无时间戳),为Volcano问题,需要进一步查看对应的日志。
- 查看Pod详情,有NPU资源分配情况但无对应NPU的详细信息;或查看K8s的Node详情时,NPU资源注册不正确,为Ascend Device Plugin问题,需要进一步定位。
- 查看cm的内容,其中status的值为“initializing”,则为HCCL-Controller问题,需要对其进一步分析。