一键式组合诊断
测试项功能
故障诊断当前支持算力、带宽、眼图等众多诊断项,每个诊断项需指定不同的参数,单诊断项依次执行耗时长。但在实际使用场景中,例如巡检场景,用户需执行多项诊断用以判断当前产品的健康状态。
因此,Ascend DMI对现有的诊断项进行分级处理,用户可通过指定诊断场景,一次执行多项诊断,提升运维效率。具体诊断场景如表1所示。
scene(诊断场景) |
包含的诊断项 |
使用Atlas 推理系列产品完成一轮诊断的参考耗时 |
使用其他产品完成一轮诊断的参考耗时 |
是否影响NPU训练或推理 |
---|---|---|---|---|
healthCheck(健康检查) |
CANN与驱动的兼容性诊断/驱动诊断/芯片诊断/网络健康诊断/眼图诊断/片上内存诊断 |
≤2min |
≤2min |
是 |
performanceCheck(性能规格) |
带宽诊断/算力诊断/NIC/PRBS码流诊断 |
14min~3h |
14min~3h |
是 |
stressTest(压测) |
AICORE/片上内存(全量压测)/P2P压测/功耗压测/AICPU压测 |
7.5h~9.5h |
3h~5h |
是 |
测试项参数查询
各参数解释如表2所示。
使用实例
以同时执行healthCheck、performanceCheck、stressTest,并跳过防呆提示为例。
ascend-dmi --dg --se healthCheck,performanceCheck,stressTest -q
- 使用Atlas A2 训练系列产品、Atlas A3 训练系列产品时,回显如下:
[root@l****]# ascend-dmi --dg --scene healthCheck,performanceCheck,stressTest -q Summary: Arch: aarch64 Mode: ***** Time: 20230822-16:16:23 Hardware: driver: HEALTH device: HEALTH network: PASS signalQuality: PASS hbm: PASS bandwidth: PASS aiflops: PASS hbmStress: PASS bandwidthStress: PASS aicore: PASS edp: PASS tdp: PASS aicpu: PASS nic: PASS Software: cann: PASS
- 使用Atlas 300I Pro 推理卡、Atlas 300V 视频解析卡、Atlas 300V Pro 视频解析卡、Atlas 300I Duo 推理卡时,回显如下:
[root@l****]# ./ascend-dmi --dg --se healthCheck,performanceCheck,stressTest -q Summary: Arch: aarch64 Mode: ***** Time: 20250206-07:27:32 Hardware: driver: HEALTH device: HEALTH network: SKIP *** The current device does not support the network health diagnosis. signalQuality: SKIP *** Current server does not support signal quality diagnosis. chipMemory: PASS bandwidth: PASS aiflops: PASS chipMemoryStress: PASS bandwidthStress: SKIP *** The current device does not support the p2p stress test. aicore: SKIP *** The current device does not support the Aicore diagnosis. edp: SKIP *** Current server does not support TDP/EDP. tdp: SKIP *** Current server does not support TDP/EDP. aicpu: SKIP *** The current device does not support the Aicpu diagnosis. nic: SKIP *** The current device does not support the nic diagnosis. Software: cann: PASS
故障诊断检查项说明
scene |
检查项 |
回显状态 |
含义 |
---|---|---|---|
healthCheck |
CANN |
PASS |
cann软件检测正常。 |
FAIL |
|
||
驱动 |
HEALTH |
驱动固件安装正常,并且驱动状态为健康。 |
|
GENERAL_WARN |
一般警告(警告内容参考界面中提示的错误信息)。 |
||
IMPORTANT_WARN |
重要警告(警告内容参考界面中提示的错误信息)。 |
||
EMERGENCY_WARN |
紧急警告(警告内容参考界面中提示的错误信息)。 |
||
FAIL |
|
||
芯片 |
HEALTH |
芯片检测结果健康。 |
|
SKIP |
当前产品形态不支持该项检测。 |
||
GENERAL_WARN |
一般警告(警告内容参考界面中提示的错误信息)。 |
||
IMPORTANT_WARN |
重要警告(警告内容参考界面中提示的错误信息)。 |
||
EMERGENCY_WARN |
紧急警告(警告内容参考界面中提示的错误信息)。 |
||
WARN |
未知的总线网络设备故障。 |
||
FAIL |
芯片检测结果失败。 |
||
NetWork |
PASS |
网络检测结果健康。 |
|
SKIP |
当前产品形态不支持该项检测。 |
||
INFO |
网络检测结果提示。 |
||
WARN |
网络检测结果告警。 |
||
FAIL |
网络检测结果失败。 |
||
片上内存诊断 |
PASS |
片上内存检测通过,无异常。 |
|
SKIP |
当前硬件形态不支持片上内存检测。 |
||
GENERAL_WARN |
历史多比特存在隔离页,告警NPU芯片健康管理故障码为0x80E18401;多比特实时隔离页数量>=16且<64;可以继续使用。 |
||
EMERGENCY_WARN |
|
||
FAIL |
|
||
SignalQuality |
PASS |
检测通过,NPU上PCIe、HCCS和RoCE通信端口的信号质量正常。 |
|
SKIP |
当前设备不支持眼图诊断。 |
||
IMPORTANT_WARN |
重要警告。 PCIe、HCCS和RoCE(其中的一项或多项)信号质量有异常,请联系华为工程师处理。 |
||
FAIL |
眼图检测执行失败。 |
||
performanceCheck |
Aiflops |
PASS |
算力测试结果正常(大于参考值)。 |
WARN |
算力测试过程中触发芯片过温。 |
||
FAIL |
|
||
BandWidth |
PASS |
带宽测试结果正常。 |
|
FAIL |
|
||
NIC诊断 |
PASS |
NPU网口连通性正常且网口带宽达到基线值。 |
|
GENERAL_WARN |
|
||
IMPORTANT_WARN |
NPU网口带宽未达到基线值。 |
||
FAIL |
|
||
SKIP |
当前设备不支持NIC诊断。 |
||
stressTest |
AICORE诊断 |
PASS |
诊断结果无异常。 |
SKIP |
|
||
EMERGENCY_WARN |
紧急警告,建议更换硬件。 |
||
FAIL |
|
||
片上内存压测 |
PASS |
片上内存压测通过。 |
|
SKIP |
当前设备不支持片上内存压测。 |
||
FAIL |
|
||
BandWidthStress |
PASS |
压力测试通过,结果无异常。 |
|
SKIP |
当前设备不支持P2P压测。 |
||
EMERGENCY_WARN |
紧急警告,压测结果为不通过,建议更换硬件。 |
||
FAIL |
调用接口失败,请联系华为工程师处理。 |
||
功耗压测 |
PASS |
功耗压力测试结果无异常。 |
|
SKIP |
当前设备不支持功耗压测。 |
||
IMPORTANT_WARN |
压测过程中产生芯片告警,请根据描述建议处理。若仍无法解决,请联系华为工程师处理。 |
||
FAIL |
功耗压测功能执行失败,请联系华为工程师处理。 |
||
AICPU压测 |
PASS |
压力测试结果无异常。 |
|
SKIP |
当前设备不支持AICPU压测。 |
||
EMERGENCY_WARN |
紧急警告,请更换硬件。 |
||
FAIL |
AICPU压测失败,请联系华为工程师处理。 |
||
说明:
|