故障诊断
测试项功能
故障诊断会获取芯片健康信息,同时对芯片进行算力、功耗、带宽等测试并输出测试结果,用以判断当前产品的健康状态。
使用约束
- 执行AICore ERROR诊断前,需已安装
Atlas A2 训练系列产品 配套的Ascend HDK 23.0.0及以后版本的MCU、驱动和固件。 - AICore ERROR诊断依赖CANN 7.0.0及以后版本的开发套件包Ascend-cann-toolkit和
Atlas A2 训练系列产品 配套的二进制算子包Ascend-cann-kernels,在执行诊断前需参考环境要求安装所需的软件包,并配置环境变量。 - 片上内存压测、AICore ERROR诊断、带宽诊断、算力诊断会影响NPU训练或推理作业,为保证返回检测结果的正确性和准确性,请单独执行以上操作。
- 进行AICore ERROR诊断时,用户请勿在诊断结果未返回时重复诊断,需在任务执行完成后进行其他测试项。
- AICore ERROR诊断完成后请重启设备。
- 在执行network诊断前,需在Host侧以root用户配置RoCE网卡IP地址和子网掩码,然后配置用于网络检测对象IP地址,否则可能导致诊断失败。
测试项参数查询
用户可任选以下指令之一查看故障诊断命令的可用参数。
ascend-dmi --dg -h
ascend-dmi --dg --help
各参数解释如表1所示。
参数 |
说明 |
是否必填 |
|---|---|---|
[-dg, --dg, --diagnosis] |
使用该参数进行整卡的故障诊断测试。支持-dg,但建议使用--dg或--diagnosis。若用户安装cann软件包时未使用默认路径,则需使用[-p, --path]参数指定安装路径。 |
是 |
[-i, --items] |
指定具体的诊断检查项,包括:
可指定driver、cann、device、network、bandwidth、aiflops、hbm、signalQuality中的一项或多项,多项时各项之间使用“,”分隔,检查项回显状态请参照表2。 |
否 |
[-d, --device] |
指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的逻辑ID。
|
否 |
[-p, --path] |
指定为CANN的安装路径。指定路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
[-r, --result] |
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
[-s, --stress] |
使用该参数进行高带宽内存压力测试。
|
否 |
[-st, --stress-time] |
指定片上内存压力测试的时间,取值范围是[60,604800],单位为秒。不指定该参数时,跑完一轮片上内存压力测试预计花费1~3个小时。需要在包含片上内存诊断检查项的场景下,与[-s, --stress]配合使用。 当前仅支持 |
否 |
不填写-i,-d,-p与-r参数 |
返回所有Device的除aicore外其他检查项的诊断结果。 需注意,-i参数未单独指定aicore时,不会进行AICore ERROR诊断。 |
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。若未指定则默认为normal。 |
否 |
[-q, --quiet] |
指定该参数跳过交互式信息,则高危操作执行将不再提示,用户将默认允许高危操作。该参数必须与-i参数的bandwidth、aiflops、hbm、aicore一起使用;且使用hbm时还需要同时指定-s参数进行片上内存压力测试。 说明:
若不指定该参数,在使用bandwidth、aiflops、hbm和aicore测试时将进行高危操作提示,用户需要输入Y或N(y或n)确认是否进行测试。 |
否 |
注
|
||
- ascend-dmi --dg后使用-i,-d等多个二级参数时,可任意指定这些参数的排列顺序,不影响命令结果输出。例如:ascend-dmi --dg -i driver,cann,device -d 0,1 -p /usr/local/Ascend -r /var/log和ascend-dmi --dg -d 0,1 -i driver,cann,device -p /usr/local/Ascend -r /var/log输出结果相同。
- 如果ascend-dmi --dg诊断结果提示“hccn_tool no certificate found”,可参考预置或替换证书套件配置证书。
- 基于安全考虑,为防止结果保存目录权限被修改,用户可将结果保存目录ascend_check的权限设置为700。
使用实例
使用实例中命令的回显在推理服务器与训练服务器类似,截图取自训练服务器。
- 以指定诊断测试项、Device ID和软件包安装路径为例。
ascend-dmi --dg -i driver,cann,device -d 0,1 -p /usr/local/Ascend

- 使用片上内存故障诊断时,可以按照图1 片上内存诊断所示,先进行片上内存故障诊断(ascend-dmi -dg -i hbm),若结果为IMPORTANT_WARN,需要先重启设备,再执行高带宽内存压测(ascend-dmi -dg -i hbm -s);其他结果请按流程图说明进行操作。
- 以指定高带宽内存诊断(片上内存),且进行片上内存压力测试为例,不跳过交互式高危操作提示信息。
ascend-dmi -dg -i hbm -s -st 60

- 以指定高带宽内存诊断(片上内存),且进行片上内存压力测试为例,跳过交互式高危操作提示信息。
ascend-dmi -dg -i hbm -s -st 60 -q

- 以指定高带宽内存诊断(片上内存),且进行片上内存压力测试为例,不跳过交互式高危操作提示信息。
故障检查项说明
类型 |
检查项 |
回显状态 |
含义 |
|---|---|---|---|
硬件类 |
driver |
HEALTH |
驱动固件安装正常,并且驱动状态为健康 |
FAIL |
|
||
GENERAL_WARN |
一般警告(警告内容参考界面中提示的错误信息) |
||
IMPORTANT_WARN |
重要警告(警告内容参考界面中提示的错误信息) |
||
EMERGENCY_WARN |
紧急警告(警告内容参考界面中提示的错误信息) |
||
device |
SKIP |
当前产品形态不支持该项检测 |
|
HEALTH |
device检测结果健康 |
||
FAIL |
device检测结果失败 |
||
GENERAL_WARN |
一般警告(警告内容参考界面中提示的错误信息) |
||
IMPORTANT_WARN |
重要警告(警告内容参考界面中提示的错误信息) |
||
EMERGENCY_WARN |
紧急警告(警告内容参考界面中提示的错误信息) |
||
network |
SKIP |
当前产品形态不支持该项检测 |
|
FAIL |
网络检测结果失败 |
||
WARN |
网络检测结果告警 |
||
PASS |
网络检测结果健康 |
||
INFO |
网络检测结果提示 |
||
aiflops |
FAIL |
|
|
PASS |
算力测试结果正常(大于参考值中的参考值) |
||
bandwidth |
FAIL |
|
|
PASS |
带宽测试结果正常(大于参考值中的参考值) |
||
片上内存 |
PASS |
片上内存检测通过,无异常。 |
|
FAIL |
片上内存检测功能失败,请联系华为工程师处理。 |
||
SKIP |
当前硬件形态不支持片上内存检测。 |
||
GENERAL_WARN |
历史多比特存在隔离页,告警NPU芯片健康管理故障码为0x80E18401,可以继续使用。 |
||
IMPORTANT_WARN |
当前实时隔离页数与已隔离页数存在差异,建议进行重启,复位npu芯片。 |
||
EMERGENCY_WARN |
|
||
aicore |
FAIL |
诊断过程出现问题,请联系华为工程师处理。 |
|
PASS |
诊断结果无异常。 |
||
SKIP |
|
||
GENERAL_WARN |
一般警告,请联系华为技术支持处理。 |
||
EMERGENCY_WARN |
诊断结果为不通过,建议更换硬件。 |
||
signalQuality |
FAIL |
检测失败,PCIe、HCCS和RoCE(其中的一项或多项)链接有异常。 |
|
PASS |
检测通过,NPU上PCIe、HCCS和RoCE通信端口的信号质量正常。 |
||
软件类 |
cann |
FAIL |
|
PASS |
cann软件检测正常 |
