Ascend DMI工具执行故障诊断时报错,出现带宽结果小于参考值的情况

问题现象

Ascend DMI工具执行故障诊断时报错,提示带宽测试结果小于参考值。

可能原因

当前环境上驱动的ECC功能为开启状态,导致带宽测试结果不达标。

解决措施

查询当前驱动的ECC功能状态,状态为“True”时,需关闭驱动的ECC功能,可参考以下步骤定位和调试。

  1. 执行命令查看驱动的ECC功能的当前状态。

    npu-smi info -t ecc-enable -i 0

    “-i”参数需指定查询的处理器ID。

  2. 若提示ECC功能当前状态为“True”,执行如下命令关闭。

    npu-smi set -t ecc-enable -i 0 -d 0

    重复步骤 1查询ECC功能当前状态,状态为“False”

  3. 执行如下命令进行故障诊断,回显提示带宽测试结果正常。

    ascend-dmi --dg
    图1 故障诊断结果