昇腾社区首页
中文
注册

NPU环境恢复

测试项功能

NPU环境恢复即通过PCIe标准热复位流程复位昇腾AI处理器。请在以下3种情况下执行NPU环境恢复:

  • AICORE压测&诊断结束后,aicore和bus电压异常。
  • AICORE压测&诊断过程中发生掉卡(使用npu-smi info命令查询设备基本信息时,NPU不在位),需要下电重启设备,并在设备重启后进行NPU环境恢复。
  • AICPU压测过程中发生掉卡(使用npu-smi info命令查询设备基本信息时,NPU不在位),需要下电重启设备,并在设备重启后进行NPU环境恢复。

测试前准备

调用芯片复位接口前,请停掉该芯片的NPU相关业务,NPU相关业务可通过fuser软件查询,具体操作步骤可参考查询NPU业务进程

测试项特定参数查询

用户可任选以下指令之一查看NPU环境恢复命令的可用参数。

ascend-dmi -r -h

ascend-dmi --reset --help

命令各参数解释如表1所示,表格内仅展示测试项特定参数,其余公共参数请参见公共参数说明

表1 参数说明

参数

说明

是否必填

[-r, --reset]

复位NPU芯片,恢复芯片状态。

注:

  • 若执行设备为Atlas 800T A2 训练服务器Atlas 900 A2 PoD 集群基础单元Atlas 900 A2 PoDc 集群基础单元Atlas 200T A2 Box16 异构子框Atlas 800I A2 推理服务器A200I A2 Box 异构组件,指定device时只会对列表里的第一个device进行热复位,热复位成功即为所有NPU复位均成功,失败认为所有NPU热复位均失败。

使用实例

ascend-dmi -r -d

1
2
3
[***@***]# ascend-dmi -r -d 0,1,2 -q
Status           : PASS
Message          : Reset server successfully.

故障检查项说明

表2 回显参数说明

参数

回显状态

含义

status

PASS

环境恢复成功。

SKIP

  • 当前产品形态不支持该项检测。
  • 当前使用的用户为非root用户。

FAIL

环境恢复失败。

失败原因分为以下几种:

  • 有其他NPU进程占用NPU卡。
  • 设备本身异常(发生掉卡等)。
    说明:

    掉卡:使用npu-smi info命令查询设备基本信息时,NPU不在位。

Message

-

NPU环境恢复详细信息。