故障发生后,根据上报的故障信息,组件会对故障设备以及故障任务进行处理,以恢复训练。
- 故障重调度模式:故障处理通过故障重调度模式,对故障设备进行隔离,并将故障任务重新调度到健康设备上继续训练。使用故障重调度模式需要对Ascend Device Plugin、NodeD和Volcano进行相关配置。
- 优雅容错模式:对于没有冗余设备以及故障容易恢复的场景,可以使用优雅容错模式。优雅容错基于故障重调度能力,在设备故障时尝试对设备进行恢复,恢复后原地拉起任务继续训练。不能恢复则回退故障重调度模式。
优雅容错故障说明
使用优雅容错模式,若训练因芯片出现故障,系统会停止故障芯片上的训练进程。优雅容错会根据对训练任务的影响,对故障处理类型重新进行分级处理,将故障处理类型重新划分成四种级别,不同故障级别处理如下所示。
- L1故障:不影响训练,不需要处理。
- L2故障:重新执行训练进程后故障自动恢复。
- L3故障:系统停止训练进程,对故障芯片进行热复位,复位后故障恢复,重新执行训练进程。
- L4故障:无法恢复,需要隔离设备。