一键式组合诊断
测试项功能
故障诊断当前支持算力、带宽、signalQuality等众多诊断项,每个诊断项需指定不同的参数,单诊断项依次执行耗时长。但在实际使用场景中,例如巡检场景,用户需执行多项诊断用以判断当前产品的健康状态。
因此,Ascend DMI对现有的诊断项进行分级处理,用户可通过指定诊断场景,一次执行多项诊断,提升运维效率。具体诊断场景如表1所示。
scene(诊断场景) |
包含的诊断项 |
使用Atlas 900 A3 SuperPoD 超节点完成一轮诊断的参考耗时 |
是否影响NPU训练或推理 |
---|---|---|---|
healthCheck(健康检查) |
CANN/驱动/Device/NetWork/SignalQuality/片上内存(诊断) |
≤2min |
是 |
performanceCheck(性能规格) |
BandWidth/Aiflops/NIC |
14min~3h |
是 |
stressTest(压测) |
Aicore/片上内存(全量压测)/P2P压测/功耗压测/Aicpu压测 |
3h~5h |
是 |
支持的场景
请参考各子诊断项支持的场景和产品型号。在不支持的场景或产品型号中,子诊断项可能会执行失败,但不会影响其他子诊断项执行。
测试前准备
在执行performanceCheck或stressTest前,建议提前在环境上安装fuser软件,以便Ascend DMI对NPU进程进行监测。
测试项参数查询
各参数解释如表2所示。
参数 |
说明 |
是否必填 |
---|---|---|
[-dg, --dg, --diagnosis] |
使用该参数进行整卡的故障诊断测试。 |
是 |
[-se, --scene, --se] |
指定诊断场景。当前支持指定以下3个场景:
|
是 |
[-p, --path] |
指定为CANN软件包的安装路径。
|
否 |
[-r, --result] |
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。
|
否 |
[-q, --quiet] |
|
否 |
注: ascend-dmi --dg后使用--se,-r等多个二级参数时,可任意指定这些参数的排列顺序,不影响命令结果输出。 |
使用实例
以同时执行healthCheck、performanceCheck、stressTest,并跳过防呆提示为例。
ascend-dmi --dg --se healthCheck,performanceCheck,stressTest -q
- 使用Atlas A2 训练系列产品、Atlas A3 训练系列产品时,回显如下:
[root@l****]# ascend-dmi --dg --scene healthCheck,performanceCheck,stressTest -q Summary: Arch: aarch64 Mode: ***** Time: 20230822-16:16:23 Hardware: driver: HEALTH device: HEALTH network: WARN *** The network health status is being initialized or the initialization is complete on device0 *** The network health status is being initialized or the initialization is complete on device1 signalQuality: SKIP *** Current server does not support signal quality diagnosis. hbm: PASS bandwidth: PASS aiflops: PASS hbmStress: PASS bandwidthStress: PASS aicore: PASS edp: PASS tdp: PASS aicpu: PASS nic: PASS Software: cann: PASS
- 使用Atlas 300I Pro 推理卡、Atlas 300V 视频解析卡、Atlas 300V Pro 视频解析卡、Atlas 300I Duo 推理卡时,回显如下:
[root@l****]# ./ascend-dmi --dg --se healthCheck,performanceCheck,stressTest -q Summary: Arch: aarch64 Mode: ***** Time: 20250206-07:27:32 Hardware: driver: HEALTH device: HEALTH network: SKIP *** The current device does not support the network health diagnosis. signalQuality: SKIP *** Current server does not support signal quality diagnosis. chipMemory: PASS bandwidth: PASS aiflops: PASS chipMemoryStress: PASS bandwidthStress: SKIP *** The current device does not support the p2p stress test. aicore: SKIP *** The current device does not support the Aicore diagnosis. edp: SKIP *** Current server does not support TDP/EDP. tdp: SKIP *** Current server does not support TDP/EDP. aicpu: SKIP *** The current device does not support the Aicpu diagnosis. nic: SKIP *** The current device does not support the nic diagnosis. Software: cann: PASS
故障诊断检查项说明
scene |
检查项 |
回显状态 |
含义 |
---|---|---|---|
healthCheck |
CANN |
PASS |
cann软件检测正常。 |
FAIL |
|
||
驱动 |
HEALTH |
驱动固件安装正常,并且驱动状态为健康。 |
|
GENERAL_WARN |
一般警告(警告内容参考界面中提示的错误信息)。 |
||
IMPORTANT_WARN |
重要警告(警告内容参考界面中提示的错误信息)。 |
||
EMERGENCY_WARN |
紧急警告(警告内容参考界面中提示的错误信息)。 |
||
FAIL |
|
||
Device |
HEALTH |
device检测结果健康。 |
|
SKIP |
当前产品形态不支持该项检测。 |
||
GENERAL_WARN |
一般警告(警告内容参考界面中提示的错误信息)。 |
||
IMPORTANT_WARN |
重要警告(警告内容参考界面中提示的错误信息)。 |
||
EMERGENCY_WARN |
紧急警告(警告内容参考界面中提示的错误信息)。 |
||
WARN |
未知的总线网络设备故障。 |
||
FAIL |
device检测结果失败。 |
||
NetWork |
PASS |
网络检测结果健康。 |
|
SKIP |
当前产品形态不支持该项检测。 |
||
INFO |
网络检测结果提示。 |
||
WARN |
网络检测结果告警。 |
||
FAIL |
网络检测结果失败。 |
||
片上内存诊断 |
PASS |
片上内存检测通过,无异常。 |
|
SKIP |
当前硬件形态不支持片上内存检测。 |
||
GENERAL_WARN |
历史多比特存在隔离页,告警NPU芯片健康管理故障码为0x80E18401;多比特实时隔离页数量>=16且<64;可以继续使用。 |
||
EMERGENCY_WARN |
|
||
FAIL |
|
||
SignalQuality |
PASS |
检测通过,NPU上PCIe、HCCS和RoCE通信端口的信号质量正常。 |
|
SKIP |
当前设备不支持眼图诊断。 |
||
IMPORTANT_WARN |
重要警告。 PCIe、HCCS和RoCE(其中的一项或多项)信号质量有异常,请联系华为工程师处理。 |
||
FAIL |
眼图检测执行失败。 |
||
performanceCheck |
Aiflops |
PASS |
算力测试结果正常(大于参考值)。 |
WARN |
算力测试过程中触发芯片过温。 |
||
FAIL |
|
||
BandWidth |
PASS |
带宽测试结果正常。 |
|
FAIL |
|
||
NIC诊断 |
PASS |
NPU网口连通性正常且网口带宽达到基线值。 |
|
GENERAL_WARN |
|
||
IMPORTANT_WARN |
NPU网口带宽未达到基线值。 |
||
FAIL |
|
||
SKIP |
当前设备不支持NIC诊断。 |
||
stressTest |
Aicore诊断 |
PASS |
诊断结果无异常。 |
SKIP |
|
||
EMERGENCY_WARN |
紧急警告,建议更换硬件。 |
||
FAIL |
|
||
片上内存压测 |
PASS |
片上内存压测通过。 |
|
SKIP |
当前设备不支持片上内存压测。 |
||
FAIL |
|
||
BandWidthStress |
PASS |
压力测试通过,结果无异常。 |
|
SKIP |
当前设备不支持P2P压测。 |
||
EMERGENCY_WARN |
紧急警告,压测结果为不通过,建议更换硬件。 |
||
FAIL |
调用接口失败,请联系华为工程师处理。 |
||
功耗压测 |
PASS |
功耗压力测试结果无异常。 |
|
SKIP |
当前设备不支持功耗压测。 |
||
IMPORTANT_WARN |
压测过程中产生芯片告警,请根据描述建议处理。若仍无法解决,请联系华为工程师处理。 |
||
FAIL |
功耗压测功能执行失败,请联系华为工程师处理。 |
||
Aicpu压测 |
PASS |
压力测试结果无异常。 |
|
SKIP |
当前设备不支持Aicpu压测。 |
||
EMERGENCY_WARN |
紧急警告,请更换硬件。 |
||
FAIL |
Aicpu压测失败,请联系华为工程师处理。 |
||
说明:
|