同一芯片故障反复出现,导致训练任务中断反复进行重调度

问题现象描述

同一芯片故障反复出现,导致训练任务中断反复进行重调度。

原因分析

芯片出现故障后,断点续训将训练进程退出并进行重调度。芯片通过自愈手段,恢复为健康状态,导致后续调度任务时,再次使用该芯片进行训练。但是该故障有较大概率在该芯片上再次出现,继续导致训练中断。

解决措施

请参见配置芯片故障频率及时长章节,配置支持该故障的最大次数和达到最大次数后的故障处理级别。