NPU环境恢复
测试项功能
NPU环境恢复即通过PCIe标准热复位流程复位昇腾AI处理器。请在以下2种情况下执行NPU环境恢复:
- aicore压测&诊断结束后,aicore和bus电压异常。
- aicore压测&诊断过程中发生掉卡(使用npu-smi info命令查询设备基本信息时,NPU不在位),需要下电重启设备,并在设备重启后进行NPU环境恢复。
支持的场景
NPU环境恢复支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
场景/产品型号 |
|
|
---|---|---|
物理机 |
Y |
Y |
宿主机+容器 |
Y |
Y |
虚拟机 |
Y |
Y |

- Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框、Atlas 800I A2 推理服务器正常启动的NPU不支持单NPU复位,即执行单NPU复位命令时所有NPU都将被复位。
使用约束
- 本功能当前仅支持root用户使用。
- 为保证本功能的正常使用,建议使用8.0.RC3及以上版本的CANN软件包。
参数 |
说明 |
是否必填 |
---|---|---|
[-r, --reset] |
复位NPU芯片,恢复芯片状态。 |
是 |
[-d, --device] |
指定查询的Device ID。
|
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。若未指定则默认为normal。 |
否 |
[-q, --quiet] |
指定该参数,将不再进行防呆提示,用户将默认允许该操作。 若不指定该参数,将进行防呆提示,用户需要输入Y或N(y或n)确认是否进行恢复。 |
否 |
[-h, --help] |
查看Ascend DMI工具“NPU环境恢复”功能的帮助信息。 |
否 |
注:
|
使用实例
1
|
ascend-dmi -r --fmt json |
图1 NPU环境恢复命令json输出格式使用示例

故障检查项说明
参数 |
回显状态 |
含义 |
---|---|---|
status |
PASS |
环境恢复成功。 |
SKIP |
|
|
FAIL |
环境恢复失败。 失败原因分为以下几种:
|
|
Message |
- |
NPU环境恢复详细信息。 |
父主题: Ascend DMI工具