构造故障

用户可以参考本章节构造故障。

(可选)构造NPU芯片故障

通过断开NPU网络链路模拟的参数面网络故障。NPU网络故障不影响单机训练任务。用户在断开链路后需手动恢复,否则该故障会一直存在。

  1. 登录计算节点。
  2. 执行以下命令,构造NPU网络链路故障。

    hccn_tool -i {device_id} -link -s down

    device_id为NPU的ID,可以通过npu-smi info命令查看NPU的ID。

  3. 执行以下命令,查看NPU链路状态。

    hccn_tool -i {device_id} -net_health -g
    回显示例如下,表示NPU网络链路故障构造成功。
    1
    net health statusFault
    

  4. 执行以下命令,恢复NPU网络链路故障。

    hccn_tool -i {device_id} -cfg recovery

  5. 执行以下命令,查看NPU链路状态。

    hccn_tool -i {device_id} -net_health -g
    回显示例如下,表示NPU网络链路故障已经恢复。
    1
    net health statusSuccess