故障处理

故障发生后,根据上报的故障信息,组件会对故障设备以及故障任务进行处理,以恢复训练。

优雅容错故障说明

使用优雅容错模式,若训练因芯片出现故障,系统会停止故障芯片上的训练进程。优雅容错会根据对训练任务的影响,对故障处理类型重新进行分级处理,将故障处理类型重新划分成四种级别,不同故障级别处理如下所示。
  • L1故障:不影响训练,不需要处理。
  • L2故障:重新执行训练进程后故障自动恢复。
  • L3故障:系统停止训练进程,对故障芯片进行热复位,复位后故障恢复,重新执行训练进程。
  • L4故障:无法恢复,需要隔离设备。