用户可以参考本章节构造故障。
通过断开NPU网络链路模拟的参数面网络故障。NPU网络故障不影响单机训练任务。用户在断开链路后需手动恢复,否则该故障会一直存在。
hccn_tool -i {device_id} -link -s down
device_id为NPU的ID,可以通过npu-smi info命令查看NPU的ID。
hccn_tool -i {device_id} -net_health -g
1 | net health status:Fault |
hccn_tool -i {device_id} -cfg recovery
hccn_tool -i {device_id} -net_health -g
1 | net health status:Success |