NPU环境恢复
测试项功能
NPU环境恢复即通过PCIe标准热复位流程复位昇腾AI处理器。请在以下3种情况下执行NPU环境恢复:
- AICORE压测&诊断结束后,aicore和bus电压异常。
- AICORE压测&诊断过程中发生掉卡(使用npu-smi info命令查询设备基本信息时,NPU不在位),需要下电重启设备,并在设备重启后进行NPU环境恢复。
- AICPU压测过程中发生掉卡(使用npu-smi info命令查询设备基本信息时,NPU不在位),需要下电重启设备,并在设备重启后进行NPU环境恢复。
测试项特定参数查询
用户可任选以下指令之一查看NPU环境恢复命令的可用参数。
ascend-dmi -r -h
ascend-dmi --reset --help
参数 |
说明 |
是否必填 |
---|---|---|
[-r, --reset] |
复位NPU芯片,恢复芯片状态。 |
是 |
注:
|
使用实例
ascend-dmi -r -d
1 2 3 | [***@***]# ascend-dmi -r -d 0,1,2 -q Status : PASS Message : Reset server successfully. |
故障检查项说明
参数 |
回显状态 |
含义 |
---|---|---|
status |
PASS |
环境恢复成功。 |
SKIP |
|
|
FAIL |
环境恢复失败。 失败原因分为以下几种:
|
|
Message |
- |
NPU环境恢复详细信息。 |
父主题: Ascend DMI工具