构造故障

若用户需要参考本章节构造故障。NPU芯片故障:通过断开NPU网络链路模拟NPU芯片故障。用户在断开链路后若不进行手动恢复,则该故障会一直存在。

(可选)构造NPU芯片故障

执行以下操作,构造NPU芯片故障宕机故障。通过断点续训特性,重启节点。

  1. 登录计算节点。
  2. 执行以下命令,构造NPU网络链路故障。

    hccn_tool -i {device_id} -link -s down

  3. 执行以下命令,查看NPU链路状态。

    hccn_tool -i {device_id} -net_health –g
    回显示例如下,表示NPU网络链路故障构造成功。
    net health status:Fault

  4. 执行以下命令,恢复NPU网络链路故障。

    hccn_tool -i {device_id} -cfg recovery

  5. 执行以下命令,查看NPU链路状态。

    hccn_tool -i {device_id} -net_health –g
    回显示例如下,表示NPU网络链路故障已经恢复。
    net health status:Success

NPU网络故障不影响单机训练任务,不会触发断点续训。

device_id为NPU的ID,可以通过npu- smi info命令查看NPU的ID。