构造故障
用户可以参考本章节构造故障。
(可选)构造NPU芯片故障
通过断开NPU网络链路模拟的参数面网络故障。NPU网络故障不影响单机训练任务。用户在断开链路后需手动恢复,否则该故障会一直存在。
- 登录计算节点。
- 执行以下命令,构造NPU网络链路故障。
hccn_tool -i {device_id} -link -s down
device_id为NPU的ID,可以通过npu-smi info命令查看NPU的ID。
- 执行以下命令,查看NPU链路状态。
hccn_tool -i {device_id} -net_health -g
回显示例如下,表示NPU网络链路故障构造成功。1
net health status: Fault
- 执行以下命令,恢复NPU网络链路故障。
hccn_tool -i {device_id} -cfg recovery
- 执行以下命令,查看NPU链路状态。
hccn_tool -i {device_id} -net_health -g
回显示例如下,表示NPU网络链路故障已经恢复。1
net health status: Success
父主题: 查看结果