昇腾社区首页
中文
注册

一键式组合诊断

测试项功能

故障诊断当前支持算力、带宽、眼图等众多诊断项,每个诊断项需指定不同的参数,单诊断项依次执行耗时长。但在实际使用场景中,例如巡检场景,用户需执行多项诊断用以判断当前产品的健康状态。

因此,Ascend DMI对现有的诊断项进行分级处理,用户可通过指定诊断场景,一次执行多项诊断,提升运维效率。具体诊断场景如表1所示。

表1 诊断场景及说明

scene(诊断场景)

包含的诊断项

使用Atlas 推理系列产品完成一轮诊断的参考耗时

使用其他产品完成一轮诊断的参考耗时

是否影响NPU训练或推理

healthCheck(健康检查)

CANN与驱动的兼容性诊断/驱动诊断/芯片诊断/网络健康诊断/眼图诊断/片上内存诊断

≤2min

≤2min

performanceCheck(性能规格)

带宽诊断/算力诊断/NIC/PRBS码流诊断

14min~3h

14min~3h

stressTest(压测)

AICORE/片上内存(全量压测)/P2P压测/功耗压测/AICPU压测

7.5h~9.5h

3h~5h

测试项参数查询

各参数解释如表2所示。

表2 参数说明

参数

说明

是否必填

[-dg, --dg, --diagnosis]

使用该参数进行整卡的故障诊断测试。

[-se, --scene, --se]

指定诊断场景。当前支持指定以下3个场景:

  • healthCheck
  • performanceCheck
  • stressTest

使用实例

以同时执行healthCheck、performanceCheck、stressTest,并跳过防呆提示为例。

ascend-dmi --dg --se healthCheck,performanceCheck,stressTest -q
  • 使用Atlas A2 训练系列产品Atlas A3 训练系列产品时,回显如下:
    [root@l****]# ascend-dmi --dg --scene healthCheck,performanceCheck,stressTest -q
    Summary:
        Arch: aarch64
        Mode: *****
        Time: 20230822-16:16:23
    Hardware:
        driver:
            HEALTH
        device:
            HEALTH
        network:
            PASS
        signalQuality:
            PASS
        hbm:
            PASS
        bandwidth:
            PASS
        aiflops:
            PASS
        hbmStress:
            PASS
        bandwidthStress:
            PASS
        aicore:
            PASS
        edp:
            PASS
        tdp:
            PASS
        aicpu:
            PASS
        nic:
            PASS
    Software:
        cann:
            PASS
  • 使用Atlas 300I Pro 推理卡Atlas 300V 视频解析卡Atlas 300V Pro 视频解析卡Atlas 300I Duo 推理卡时,回显如下:
    [root@l****]# ./ascend-dmi --dg --se healthCheck,performanceCheck,stressTest -q
    Summary:
        Arch: aarch64
        Mode: *****
        Time: 20250206-07:27:32
    Hardware:
        driver:
            HEALTH
        device:
            HEALTH
        network:
            SKIP
            *** The current device does not support the network health diagnosis.
        signalQuality:
            SKIP
            *** Current server does not support signal quality diagnosis.
        chipMemory:
            PASS
        bandwidth:
            PASS
        aiflops:
            PASS
        chipMemoryStress:
            PASS
        bandwidthStress:
            SKIP
            *** The current device does not support the p2p stress test.
        aicore:
            SKIP
            *** The current device does not support the Aicore diagnosis.
        edp:
            SKIP
            *** Current server does not support TDP/EDP.
        tdp:
            SKIP
            *** Current server does not support TDP/EDP.
        aicpu:
            SKIP
            *** The current device does not support the Aicpu diagnosis.
        nic:
            SKIP
            *** The current device does not support the nic diagnosis.
    Software:
        cann:
            PASS

故障诊断检查项说明

scene

检查项

回显状态

含义

healthCheck

CANN

PASS

cann软件检测正常。

FAIL

  • nnae、nnrt、toolkit均安装异常。
  • 驱动安装异常(cann和驱动间的兼容性不满足要求)。

驱动

HEALTH

驱动固件安装正常,并且驱动状态为健康。

GENERAL_WARN

一般警告(警告内容参考界面中提示的错误信息)。

IMPORTANT_WARN

重要警告(警告内容参考界面中提示的错误信息)。

EMERGENCY_WARN

紧急警告(警告内容参考界面中提示的错误信息)。

FAIL

  • 驱动或固件安装异常。
  • 读取驱动健康状态失败。

芯片

HEALTH

芯片检测结果健康。

SKIP

当前产品形态不支持该项检测。

GENERAL_WARN

一般警告(警告内容参考界面中提示的错误信息)。

IMPORTANT_WARN

重要警告(警告内容参考界面中提示的错误信息)。

EMERGENCY_WARN

紧急警告(警告内容参考界面中提示的错误信息)。

WARN

未知的总线网络设备故障。

FAIL

芯片检测结果失败。

NetWork

PASS

网络检测结果健康。

SKIP

当前产品形态不支持该项检测。

INFO

网络检测结果提示。

WARN

网络检测结果告警。

FAIL

网络检测结果失败。

片上内存诊断

PASS

片上内存检测通过,无异常。

SKIP

当前硬件形态不支持片上内存检测。

GENERAL_WARN

历史多比特存在隔离页,告警NPU芯片健康管理故障码为0x80E18401;多比特实时隔离页数量>=16且<64;可以继续使用。

EMERGENCY_WARN

  • 历史多比特隔离页数及设备隔离行过多,告警NPU芯片健康管理故障码为0x80E18402,建议更换备件。
  • 相同Stack及PC内的隔离行处于不同Bank的数量 ≥ 4,当前设备运行存在高风险,建议更换备件。
  • 相同Stack、相同Sid及不同PC内的隔离行 ≥ 4,当前设备运行存在高风险,建议更换备件。
  • 相同Stack、Sid、PC及Bank内的隔离行 >16,当前设备运行存在高风险,建议更换备件。
  • 相同Stack、Sid、PC及Bank内,排除4bit及以内相邻的错误地址,其他不同地址的数量 > 5,当前设备运行存在高风险,建议更换备件。
  • 多比特实时隔离页数量>=64,当前设备运行存在高风险,建议更换备件。
    说明:

    使用Atlas 300I Pro 推理卡Atlas 300V 视频解析卡Atlas 300V Pro 视频解析卡Atlas 300I Duo 推理卡产品,NPU芯片故障码为0x80DF8402或者ECC多比特实时隔离页>=64时,当前设备运行存在高风险,建议更换备件。

FAIL

SignalQuality

PASS

检测通过,NPU上PCIe、HCCS和RoCE通信端口的信号质量正常。

SKIP

当前设备不支持眼图诊断。

IMPORTANT_WARN

重要警告。

PCIe、HCCS和RoCE(其中的一项或多项)信号质量有异常,请联系华为工程师处理。

FAIL

眼图检测执行失败。

performanceCheck

Aiflops

PASS

算力测试结果正常(大于参考值)。

WARN

算力测试过程中触发芯片过温。

FAIL

  • 算力测试失败。
  • 算力测试结果小于参考值。

BandWidth

PASS

带宽测试结果正常。

FAIL

  • 带宽测试失败。
  • 带宽测试结果小于参考值。
  • 处理方案:请联系华为工程师处理或参考FAQ进行定位。
  • FAQ:带宽测试类

NIC诊断

PASS

NPU网口连通性正常且网口带宽达到基线值。

GENERAL_WARN

  • NPU网口状态为DOWN。
  • NPU之间的网口未连通。

IMPORTANT_WARN

NPU网口带宽未达到基线值。

FAIL

  • hccn_tool工具安全性校验失败。
  • 获取NPU网口状态失败。
  • 获取NPU网口速率失败。
  • 获取NPU网口的IP失败。
  • NPU网口连通性测试失败。
  • NPU网口reset失败。
  • NPU网口带宽测试失败。

SKIP

当前设备不支持NIC诊断。

stressTest

AICORE诊断

PASS

诊断结果无异常。

SKIP

  • 执行诊断的用户为非root用户。
  • 当前设备不支持AICORE诊断。

EMERGENCY_WARN

紧急警告,建议更换硬件。

FAIL

片上内存压测

PASS

片上内存压测通过。

SKIP

当前设备不支持片上内存压测。

FAIL

  • 片上内存压测失败,有新增的多比特隔离页。用户可在执行片上内存诊断后再进行片上内存压测,更多说明详见图1
  • 软件执行失败。

BandWidthStress

PASS

压力测试通过,结果无异常。

SKIP

当前设备不支持P2P压测。

EMERGENCY_WARN

紧急警告,压测结果为不通过,建议更换硬件。

FAIL

调用接口失败,请联系华为工程师处理。

功耗压测

PASS

功耗压力测试结果无异常。

SKIP

当前设备不支持功耗压测。

IMPORTANT_WARN

压测过程中产生芯片告警,请根据描述建议处理。若仍无法解决,请联系华为工程师处理。

FAIL

功耗压测功能执行失败,请联系华为工程师处理。

AICPU压测

PASS

压力测试结果无异常。

SKIP

当前设备不支持AICPU压测。

EMERGENCY_WARN

紧急警告,请更换硬件。

FAIL

AICPU压测失败,请联系华为工程师处理。

说明:

  • 本文档输出的Device ID都是芯片逻辑ID。
  • 在signalQuality诊断中,若SNR和HEH的数值为0,说明测试的RoCE链路或HCCS链路中指定的Device之间未建链。
图1 片上内存压测及诊断