故障诊断会获取芯片健康信息,同时对芯片进行算力、功耗、带宽测试并输出测试结果,用以判断当前产品的健康状态。
用户可任选以下指令之一查看故障诊断命令的可用参数。
ascend-dmi --dg -h
ascend-dmi --dg --help
各参数解释如表1所示。
参数 |
说明 |
是否必填 |
---|---|---|
[-dg, --dg, --diagnosis] |
使用该参数进行整卡的故障诊断测试。支持-dg,但建议使用--dg或--diagnosis。若用户安装cann软件包时未使用默认路径,则需使用[-p, --path]参数指定安装路径。 |
是 |
[-i, --items] |
指定具体的诊断检查项,包括:
可指定driver、cann、device、network、bandwidth、aiflops中的一项或多项,多项时各项之间使用“,”分隔,检查项回显状态请参照表2。 |
否 |
[-d, --device] |
指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的ID,用户可以执行ascend-dmi --info命令,在显示界面表格中的Chip参数处获得芯片数量。比如一个推理卡配置4个昇腾芯片,则Device ID的取值范围为[0,3]。
|
否 |
[-p, --path] |
指定为CANN的安装路径。指定路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
[-r, --result] |
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
不填写-i,-d,-p与-r参数 |
返回所有Device的所有检查项的诊断结果。 |
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。若未指定则默认为normal。 |
否 |
使用实例中命令的回显在推理服务器与训练服务器类似,截图取自训练服务器。
以指定诊断测试项、Device ID和软件包安装路径为例。
ascend-dmi --dg -i driver,cann,device -d 0,1 -p /usr/local/Ascend
类型 |
检查项 |
回显状态 |
含义 |
---|---|---|---|
硬件类 |
driver |
HEALTH |
驱动固件安装正常,并且驱动状态为健康 |
FAIL |
|
||
GENERAL_WARN |
一般警告(警告内容参考界面中提示的错误信息) |
||
IMPORTANT_WARN |
重要警告(警告内容参考界面中提示的错误信息) |
||
EMERGENCY_WARN |
紧急警告(警告内容参考界面中提示的错误信息) |
||
device |
SKIP |
当前产品形态不支持该项检测 |
|
HEALTH |
device检测结果健康 |
||
FAIL |
device检测结果失败 |
||
GENERAL_WARN |
一般警告(警告内容参考界面中提示的错误信息) |
||
IMPORTANT_WARN |
重要警告(警告内容参考界面中提示的错误信息) |
||
EMERGENCY_WARN |
紧急警告(警告内容参考界面中提示的错误信息) |
||
network |
SKIP |
当前产品形态不支持该项检测 |
|
FAIL |
网络检测结果失败 |
||
WARN |
网络检测结果告警 |
||
PASS |
网络检测结果健康 |
||
INFO |
网络检测结果提示 |
||
aiflops |
FAIL |
|
|
WARN |
算力测试结果大于参考值中的最小值,但小于参考值中的警告值 |
||
PASS |
算力测试结果正常(大于参考值中的警告值) |
||
bandwidth |
FAIL |
|
|
WARN |
带宽测试结果大于参考值中的最小值,但小于参考值中的警告值 |
||
PASS |
带宽测试结果正常(大于参考值中的警告值) |
||
软件类 |
cann |
FAIL |
|
PASS |
cann软件检测正常 |