一键式组合诊断

测试项功能

故障诊断当前支持算力、带宽、SignalQuality等众多诊断项,每个诊断项需指定不同的参数,单诊断项依次执行耗时长。但在实际使用场景中,例如巡检场景,用户需执行多项诊断用以判断当前产品的健康状态。

因此,Ascend DMI对现有的诊断项进行分级处理,用户可通过指定诊断场景,一次执行多项诊断,提升运维效率。具体诊断场景如表1所示。

表1 诊断场景及说明

scence(诊断场景)

包含的诊断项

使用Atlas 900 A3 SuperPoD 集群算力系统完成一轮诊断的参考耗时

是否影响NPU训练或推理

healthCheck(健康检查)

CANN/驱动/Device/NetWork/SignalQuality/片上内存(诊断)

≤2min

performanceCheck(性能规格)

BandWidth/Aiflops

14min~16min

stressTest(压测)

Aicore/片上内存(全量压测)/P2P压测

3h~5h

支持的场景

请参考各子诊断项支持的场景和产品型号。在不支持的场景或产品型号中,子诊断项可能会执行失败,但不会影响其他子诊断项执行。

测试前准备

在执行performanceCheck或stressTest前,建议提前在环境上安装fuser软件,以便Ascend DMI对NPU进程进行监测。

测试项参数查询

各参数解释如表2所示。

表2 参数说明

参数

说明

是否必填

[-dg, --dg, --diagnosis]

使用该参数进行整卡的故障诊断测试。

[-se, --scene, --se]

指定诊断场景。当前支持指定以下3个场景:

  • healthCheck
  • performanceCheck
  • stressTest

[-p, --path]

指定为CANN软件包的安装路径。

  • 若用户安装CANN软件包时未使用默认安装路径,则此参数必填,请指定为实际安装CANN的路径。
  • 指定路径需符合安全要求,且不支持包含通配符“*”。
  • 若不填写,且为root用户安装软件包时,则取值为默认路径“/usr/local/Ascend”
  • 当[--scene, --se]后检查项不包含healthCheck时,用户请勿填写此参数。

[-r, --result]

指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。

  • 若用户指定结果保存路径,则在指定路径创建ascend_check文件夹,root用户指定的路径,将创建在根目录下,非root用户则创建在其$HOME下;
  • 若不指定路径,则保存在默认路径下,root用户:“/var/log/ascend_check”,非root用户:“$HOME/var/log/ascend_check”。

[-fmt, --fmt, --format]

指定输出格式,可以为normal或json。

  • 若未指定则默认为normal。
  • 当[-fmt, --fmt, --format]后检查项指定json格式输出时,会进行故障诊断结果保存,结果保存在“ascend_check/environment_check_before.txt”文件中,不指定json格式输出时,不保存故障诊断结果。

[-q, --quiet]

  • 指定该参数,将不再进行防呆提示,用户将默认允许该操作。
  • 若不指定该参数,用户需要输入Y或N(y或n)确认是否进行测试。

注:

ascend-dmi --dg后使用--se,-r等多个二级参数时,可任意指定这些参数的排列顺序,不影响命令结果输出。

使用实例

以同时执行healthCheck、performanceCheck、stressTest,并跳过防呆提示提示为例。

ascend-dmi --dg --se healthCheck,performanceCheck,stressTest -q
[root@l****]# ascend-dmi --dg --scene healthCheck,performanceCheck,stressTest -q
Summary:
    Arch: aarch64
    Mode: *****
    Time: 20230822-16:16:23
Hardware:
    driver:
        HEALTH
    device:
        HEALTH
    network:
        WARN
        *** The network health status is being initialized or the initialization is complete on device0
        *** The network health status is being initialized or the initialization is complete on device1
    signalQuality:
        SKIP
        *** Current server does not support signal quality diagnosis.
    hbm:
        PASS
    bandwidth:
        PASS
    aiflops:
        PASS
    hbmStress:
        PASS
    bandwidthStress:
        PASS
    aicore:
        PASS
Software:
    cann:
        PASS

故障诊断检查项说明

scence

检查项

回显状态

含义

healthCheck

CANN

PASS

cann软件检测正常。

FAIL

  • nnae、nnrt、toolkit均安装异常。
  • 驱动安装异常(cann和驱动间的兼容性不满足要求)。

驱动

HEALTH

驱动固件安装正常,并且驱动状态为健康。

GENERAL_WARN

一般警告(警告内容参考界面中提示的错误信息)。

IMPORTANT_WARN

重要警告(警告内容参考界面中提示的错误信息)。

EMERGENCY_WARN

紧急警告(警告内容参考界面中提示的错误信息)。

FAIL

  • 驱动或固件安装异常。
  • 读取驱动健康状态失败。

Device

HEALTH

device检测结果健康。

SKIP

当前产品形态不支持该项检测。

GENERAL_WARN

一般警告(警告内容参考界面中提示的错误信息)。

IMPORTANT_WARN

重要警告(警告内容参考界面中提示的错误信息)。

EMERGENCY_WARN

紧急警告(警告内容参考界面中提示的错误信息)。

FAIL

device检测结果失败。

NetWork

PASS

网络检测结果健康。

SKIP

当前产品形态不支持该项检测。

INFO

网络检测结果提示。

WARN

网络检测结果告警。

FAIL

网络检测结果失败。

片上内存诊断

PASS

片上内存检测通过,无异常。

SKIP

当前硬件形态不支持片上内存检测。

GENERAL_WARN

历史多比特存在隔离页,告警NPU芯片健康管理故障码为0x80E18401,可以继续使用。

IMPORTANT_WARN

当前实时隔离页数与已隔离页数存在差异,必须进行重启,复位npu芯片。

EMERGENCY_WARN

  • 历史多比特隔离页数及设备隔离行过多,告警NPU芯片健康管理故障码为0x80E18402,建议更换备件。
  • 相同Stack及PC内的隔离行处于不同Bank的数量 ≥ 4,当前设备运行存在高风险,建议更换备件。
  • 相同Stack、相同Sid及不同PC内的隔离行 ≥ 4,当前设备运行存在高风险,建议更换备件。
  • 相同Stack、Sid、PC及Bank内的隔离行 >16,当前设备运行存在高风险,建议更换备件。
  • 相同Stack、Sid、PC及Bank内,排除4bit及以内相邻的错误地址,其他不同地址的数量 > 5,当前设备运行存在高风险,建议更换备件。

FAIL

SignalQuality

PASS

检测通过,NPU上PCIe、HCCS和RoCE通信端口的信号质量正常。

IMPORTANT_WARN

重要警告。

PCIe、HCCS和RoCE(其中的一项或多项)信号质量有异常,请联系华为工程师处理。

FAIL

眼图检测执行失败。

performanceCheck

Aiflops

PASS

算力测试结果正常(大于参考值)。

FAIL

  • 算力测试失败。
  • 算力测试结果小于参考值。

BandWidth

PASS

带宽测试结果正常。

FAIL

  • 带宽测试失败。
  • 带宽测试结果小于参考值。
  • 处理方案:请联系华为工程师处理或参考FAQ进行定位。
  • FAQ:带宽测试类

stressTest

Aicore诊断

PASS

诊断结果无异常。

SKIP

  • 执行诊断的用户为非root用户。
  • 当前设备不支持aicore诊断。

EMERGENCY_WARN

紧急警告,建议更换硬件。

FAIL

片上内存压测

PASS

片上内存压测通过。

FAIL

片上内存压测失败,有新增的多比特隔离页。更多说明详见图1

BandWidthStress

PASS

压力测试通过,结果无异常。

SKIP

当前设备不支持P2P压测。

EMERGENCY_WARN

紧急警告,压测结果为不通过,建议更换硬件。

FAIL

调用接口失败,请联系华为工程师处理。

说明:

  • 本文档输出的Device ID都是芯片逻辑ID。
  • 在SignalQuality诊断中,若SNR和HEH的数值为0,说明测试的RoCE链路或HCCS链路中指定的Device之间未建链。
图1 片上内存诊断