测试项功能
NPU环境恢复即通过PCIe标准热复位流程复位昇腾AI处理器。请在以下2种情况下执行NPU环境恢复:
- aicore压测&诊断结束后,aicore和bus电压异常。
- aicore压测&诊断过程中发生掉卡(使用npu-smi info命令查询设备基本信息时,NPU不在位),需要下电重启设备,并在设备重启后进行NPU环境恢复。
支持的场景
NPU环境恢复支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
表1 支持的场景和产品型号场景/产品型号
|
Atlas A2 训练系列产品
|
Atlas 800I A2 推理产品
|
物理机
|
Y
|
Y
|
宿主机+容器
|
Y
|
Y
|
虚拟机
|
Y
|
Y
|
- Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框、Atlas 800I A2 推理服务器正常启动的NPU不支持单NPU复位,即执行单NPU复位命令时所有NPU都将被复位。
使用约束
- 本功能当前仅支持root用户使用。
- 为保证本功能的正常使用,建议使用8.0.RC3及以上版本的CANN软件包。
测试前准备
调用芯片复位接口前,请停掉该芯片的NPU相关业务,NPU相关业务可通过fuser软件查询,具体操作步骤可参考查询NPU业务进程。
测试项参数查询
用户可任选以下指令之一查看带宽测试命令的可用参数。
ascend-dmi -r -h
ascend-dmi --reset --help
命令各参数解释如表2所示。
表2 参数说明参数
|
说明
|
是否必填
|
[-r, --reset]
|
复位NPU芯片,恢复芯片状态。
|
是
|
[-d, --device]
|
指定查询的Device ID。
- 可同时指定多个Device ID。
- 指定多个芯片时,使用英文逗号进行分隔。
- 不指定该参数时,默认恢复该设备上所有的NPU。
|
否
|
[-fmt, --fmt, --format]
|
指定输出格式,可以为normal或json。若未指定则默认为normal。
|
否
|
[-q, --quiet]
|
指定该参数,将不再进行防呆提示,用户将默认允许该操作。若不指定该参数,将进行防呆提示,用户需要输入Y或N(y或n)确认是否进行恢复。
|
否
|
注:
- 本文档输入或输出的Device ID都是芯片逻辑ID。
- 用户可以执行npu-smi info -m命令,在显示界面表格中的Chip Logic ID参数处获得芯片逻辑ID,NPU ID则为对应的芯片物理ID。
- 若执行设备为Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框、Atlas 800I A2 推理服务器,指定device时只会对列表里的第一个device进行热复位,热复位成功即为所有NPU复位均成功,失败认为所有NPU热复位均失败。
|
使用实例
ascend-dmi -r --fmt json
故障检查项说明
表3 回显参数说明参数
|
回显状态
|
含义
|
status
|
PASS
|
环境恢复成功。
|
SKIP
|
- 当前产品形态不支持该项检测。
- 当前使用的用户为非root用户。
|
FAIL
|
环境恢复失败。
失败原因分为以下几种:
- 有其他NPU进程占用NPU卡。
- 设备本身异常(发生掉卡等)。
说明: 掉卡:使用npu-smi info命令查询设备基本信息时,NPU不在位。
|
Message
|
-
|
NPU环境恢复详细信息。
|