Device诊断
测试项功能
对Device健康状态进行诊断,并输出诊断结果。
诊断项名称 |
使用Atlas A2 训练系列产品完成一轮诊断的参考耗时 |
使用Atlas 900 A3 SuperPoD 超节点完成一轮诊断的参考耗时 |
是否影响NPU训练或推理 |
使用场景 |
---|---|---|---|---|
device诊断 |
2s~4s |
≤1min |
否 |
训练或推理业务上线、巡检、硬件出现故障。 |
支持的场景
device诊断支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
场景/产品型号 |
|||||||
---|---|---|---|---|---|---|---|
物理机 |
Y |
Y |
Y |
Y |
Y |
||
宿主机+容器 |
Y |
Y |
N |
Y |
|||
虚拟机 |
N |
N |

- 仅Atlas 800 训练服务器(型号 9000)、Atlas 900 PoD(型号 9000)、Atlas 900T PoD Lite产品支持。
- 仅Atlas 200T A2 Box16 异构子框支持。
- 仅Atlas 300I Pro 推理卡、Atlas 300I Duo 推理卡、Atlas 300V Pro 视频解析卡、Atlas 300V 视频解析卡支持。
- 仅Atlas 200 AI加速模块(EP场景)、Atlas 300I 推理卡(型号 3000)、Atlas 300I 推理卡(型号 3010)、Atlas 500 Pro 智能边缘服务器(型号 3000)支持。
- 仅Atlas 300I 推理卡(型号 3000)、Atlas 300I 推理卡(型号 3010)、Atlas 500 Pro 智能边缘服务器(型号 3000)支持。
- 仅Atlas 300I Pro 推理卡、Atlas 300I Duo 推理卡、Atlas 300V Pro 视频解析卡、Atlas 300V 视频解析卡、Atlas 200I SoC A1 核心板支持。
- Atlas 9000 A3 SuperPoD 集群算力系统支持NPU健康诊断;Atlas 900 A3 SuperPoD 超节点、A200T A3 Box8 超节点服务器产品支持NPU和总线网络设备的健康诊断。
- 仅A200T A3 Box8 超节点服务器支持。
测试项参数查询
各参数解释如表3所示。
参数 |
说明 |
是否必填 |
---|---|---|
[-dg, --dg, --diagnosis] |
使用该参数进行整卡的故障诊断测试。 |
是 |
[-i, --items] |
指定具体的诊断检查项:
|
否 |
[-d, --device] |
指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的逻辑ID。
|
否 |
[-r, --result] |
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。若未指定则默认为normal。 |
否 |
说明:
|
使用实例
ascend-dmi -dg -i device -d 1
故障检查项说明
回显状态 |
含义 |
---|---|
HEALTH |
device检测结果健康。 |
SKIP |
当前产品形态不支持该项检测。 |
GENERAL_WARN |
一般警告(警告内容参考界面中提示的错误信息)。 |
IMPORTANT_WARN |
重要警告(警告内容参考界面中提示的错误信息)。 |
EMERGENCY_WARN |
紧急警告(警告内容参考界面中提示的错误信息)。 |
WARN |
未知的总线网络设备故障。 |
FAIL |
device诊断失败。 |