Device诊断
测试项功能
对Device健康状态进行诊断,并输出诊断结果。
诊断项名称 |
使用Atlas A2 训练系列产品完成一轮诊断的参考耗时 |
是否影响NPU训练或推理 |
使用场景 |
---|---|---|---|
device诊断 |
2s~4s |
否 |
训练或推理业务上线、巡检、硬件出现故障。 |
支持的场景
device诊断支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
场景/产品型号 |
||||||
---|---|---|---|---|---|---|
物理机 |
Y |
Y |
Y |
Y |
Y |
|
宿主机+容器 |
Y |
Y |
N |
Y |
||
虚拟机 |
N |
N |

- 仅Atlas 800 训练服务器(型号 9000)、Atlas 900 PoD(型号 9000)、Atlas 900T PoD Lite产品支持。
- 仅Atlas 200T A2 Box16 异构子框支持。
- 仅Atlas 300I Pro 推理卡、Atlas 300I Duo 推理卡、Atlas 300V Pro 视频解析卡、Atlas 300V 视频解析卡支持。
- 仅Atlas 200 AI加速模块(EP场景)、Atlas 300I 推理卡(型号 3000)、Atlas 300I 推理卡(型号 3010)、Atlas 500 Pro 智能边缘服务器(型号 3000)支持。
- 仅Atlas 300I 推理卡(型号 3000)、Atlas 300I 推理卡(型号 3010)、Atlas 500 Pro 智能边缘服务器(型号 3000)支持。
- 仅Atlas 300I Pro 推理卡、Atlas 300I Duo 推理卡、Atlas 300V Pro 视频解析卡、Atlas 300V 视频解析卡、Atlas 200I SoC A1 核心板支持。
测试项参数查询
各参数解释如表3所示。
参数 |
说明 |
是否必填 |
---|---|---|
[-dg, --dg, --diagnosis] |
使用该参数进行整卡的故障诊断测试。 |
是 |
[-i, --items] |
指定具体的诊断检查项:
|
否 |
[-d, --device] |
指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的逻辑ID。
|
否 |
[-r, --result] |
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。若未指定则默认为normal。 |
否 |
说明:
|
使用实例
1 | ascend-dmi -dg -i device -d 1 |
故障检查项说明
回显状态 |
含义 |
---|---|
HEALTH |
device检测结果健康。 |
SKIP |
当前产品形态不支持该项检测。 |
GENERAL_WARN |
一般警告(警告内容参考界面中提示的错误信息)。 |
IMPORTANT_WARN |
重要警告(警告内容参考界面中提示的错误信息)。 |
EMERGENCY_WARN |
紧急警告(警告内容参考界面中提示的错误信息)。 |
FAIL |
device诊断失败。 |
父主题: 故障诊断