若用户需要参考本章节构造故障。NPU芯片故障:通过断开NPU网络链路模拟NPU芯片故障。用户在断开链路后若不进行手动恢复,则该故障会一直存在。
执行以下操作,构造NPU芯片故障宕机故障。通过断点续训特性,重启节点。
hccn_tool -i {device_id} -link -s down
hccn_tool -i {device_id} -net_health –g
net health status:Fault
hccn_tool -i {device_id} -cfg recovery
hccn_tool -i {device_id} -net_health –g
net health status:Success
NPU网络故障不影响单机训练任务,不会触发断点续训。
device_id为NPU的ID,可以通过npu- smi info命令查看NPU的ID。