故障诊断当前支持算力、带宽、SignalQuality等众多诊断项,每个诊断项需指定不同的参数,单诊断项依次执行耗时长。但在实际使用场景中,例如巡检场景,用户需执行多项诊断用以判断当前产品的健康状态。
因此,Ascend DMI对现有的诊断项进行分级处理,用户可通过指定诊断场景,一次执行多项诊断,提升运维效率。具体诊断场景如表1所示。
scence(诊断场景) |
包含的诊断项 |
使用Atlas 900 A3 SuperPoD 集群算力系统完成一轮诊断的参考耗时 |
是否影响NPU训练或推理 |
---|---|---|---|
healthCheck(健康检查) |
CANN/驱动/Device/NetWork/SignalQuality/片上内存(诊断) |
≤2min |
是 |
performanceCheck(性能规格) |
BandWidth/Aiflops |
14min~16min |
是 |
stressTest(压测) |
Aicore/片上内存(全量压测)/P2P压测 |
3h~5h |
是 |
请参考各子诊断项支持的场景和产品型号。在不支持的场景或产品型号中,子诊断项可能会执行失败,但不会影响其他子诊断项执行。
在执行performanceCheck或stressTest前,建议提前在环境上安装fuser软件,以便Ascend DMI对NPU进程进行监测。
各参数解释如表2所示。
参数 |
说明 |
是否必填 |
---|---|---|
[-dg, --dg, --diagnosis] |
使用该参数进行整卡的故障诊断测试。 |
是 |
[-se, --scene, --se] |
指定诊断场景。当前支持指定以下3个场景:
|
是 |
[-p, --path] |
指定为CANN软件包的安装路径。
|
否 |
[-r, --result] |
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。
|
否 |
[-q, --quiet] |
|
否 |
注: ascend-dmi --dg后使用--se,-r等多个二级参数时,可任意指定这些参数的排列顺序,不影响命令结果输出。 |
以同时执行healthCheck、performanceCheck、stressTest,并跳过防呆提示提示为例。
ascend-dmi --dg --se healthCheck,performanceCheck,stressTest -q
[root@l****]# ascend-dmi --dg --scene healthCheck,performanceCheck,stressTest -q Summary: Arch: aarch64 Mode: ***** Time: 20230822-16:16:23 Hardware: driver: HEALTH device: HEALTH network: WARN *** The network health status is being initialized or the initialization is complete on device0 *** The network health status is being initialized or the initialization is complete on device1 signalQuality: SKIP *** Current server does not support signal quality diagnosis. hbm: PASS bandwidth: PASS aiflops: PASS hbmStress: PASS bandwidthStress: PASS aicore: PASS Software: cann: PASS
scence |
检查项 |
回显状态 |
含义 |
---|---|---|---|
healthCheck |
CANN |
PASS |
cann软件检测正常。 |
FAIL |
|
||
驱动 |
HEALTH |
驱动固件安装正常,并且驱动状态为健康。 |
|
GENERAL_WARN |
一般警告(警告内容参考界面中提示的错误信息)。 |
||
IMPORTANT_WARN |
重要警告(警告内容参考界面中提示的错误信息)。 |
||
EMERGENCY_WARN |
紧急警告(警告内容参考界面中提示的错误信息)。 |
||
FAIL |
|
||
Device |
HEALTH |
device检测结果健康。 |
|
SKIP |
当前产品形态不支持该项检测。 |
||
GENERAL_WARN |
一般警告(警告内容参考界面中提示的错误信息)。 |
||
IMPORTANT_WARN |
重要警告(警告内容参考界面中提示的错误信息)。 |
||
EMERGENCY_WARN |
紧急警告(警告内容参考界面中提示的错误信息)。 |
||
FAIL |
device检测结果失败。 |
||
NetWork |
PASS |
网络检测结果健康。 |
|
SKIP |
当前产品形态不支持该项检测。 |
||
INFO |
网络检测结果提示。 |
||
WARN |
网络检测结果告警。 |
||
FAIL |
网络检测结果失败。 |
||
片上内存诊断 |
PASS |
片上内存检测通过,无异常。 |
|
SKIP |
当前硬件形态不支持片上内存检测。 |
||
GENERAL_WARN |
历史多比特存在隔离页,告警NPU芯片健康管理故障码为0x80E18401,可以继续使用。 |
||
IMPORTANT_WARN |
当前实时隔离页数与已隔离页数存在差异,必须进行重启,复位npu芯片。 |
||
EMERGENCY_WARN |
|
||
FAIL |
|
||
SignalQuality |
PASS |
检测通过,NPU上PCIe、HCCS和RoCE通信端口的信号质量正常。 |
|
IMPORTANT_WARN |
重要警告。 PCIe、HCCS和RoCE(其中的一项或多项)信号质量有异常,请联系华为工程师处理。 |
||
FAIL |
眼图检测执行失败。 |
||
performanceCheck |
Aiflops |
PASS |
算力测试结果正常(大于参考值)。 |
FAIL |
|
||
BandWidth |
PASS |
带宽测试结果正常。 |
|
FAIL |
|
||
stressTest |
Aicore诊断 |
PASS |
诊断结果无异常。 |
SKIP |
|
||
EMERGENCY_WARN |
紧急警告,建议更换硬件。 |
||
FAIL |
|
||
片上内存压测 |
PASS |
片上内存压测通过。 |
|
FAIL |
片上内存压测失败,有新增的多比特隔离页。更多说明详见图1。 |
||
BandWidthStress |
PASS |
压力测试通过,结果无异常。 |
|
SKIP |
当前设备不支持P2P压测。 |
||
EMERGENCY_WARN |
紧急警告,压测结果为不通过,建议更换硬件。 |
||
FAIL |
调用接口失败,请联系华为工程师处理。 |
||
说明:
|