同一芯片故障反复出现,导致训练任务中断反复进行重调度
问题现象描述
同一芯片故障反复出现,导致训练任务中断反复进行重调度。
原因分析
芯片出现故障后,断点续训将训练进程退出并进行重调度。芯片通过自愈手段,恢复为健康状态,导致后续调度任务时,再次使用该芯片进行训练。但是该故障有较大概率在该芯片上再次出现,继续导致训练中断。
父主题: 使用时出现的故障
同一芯片故障反复出现,导致训练任务中断反复进行重调度。
芯片出现故障后,断点续训将训练进程退出并进行重调度。芯片通过自愈手段,恢复为健康状态,导致后续调度任务时,再次使用该芯片进行训练。但是该故障有较大概率在该芯片上再次出现,继续导致训练中断。