昇腾社区首页
中文
注册

片上内存诊断

测试项功能

对高带宽内存进行诊断,并输出诊断结果。

表1 诊断项说明

诊断项名称

参考耗时

是否影响NPU训练或推理

使用场景

片上内存诊断

2s~4s

训练或推理任务时,NPU芯片片上内存出现ECC故障。

  • 片上内存压测和片上内存诊断有不同的使用场景,具体请参见表1。请根据实际使用场景选择执行片上内存压测或片上内存诊断。
  • 若想同时使用片上内存诊断、片上内存压测、片上内存高危地址压测请执行一键式片上内存压测诊断

测试项特定参数查询

各参数解释如表2所示,表格内仅展示测试项特定参数,其余公共参数请参见公共参数说明

表2 参数说明

参数

说明

是否必填

[-i, --items]

指定具体的诊断检查项。

  • 当前仅支持指定的诊断项为hbm/chipMemory。hbm和chipMemory不能同时指定。
    • 使用Atlas A2 训练系列产品Atlas 800I A2 推理服务器A200I A2 Box 异构组件Atlas A3 训练系列产品、Atlas A3 推理系列产品时,指定诊断项为hbm。
    • 使用Atlas 300I Pro 推理卡Atlas 300V 视频解析卡Atlas 300V Pro 视频解析卡Atlas 300I Duo 推理卡时,指定诊断项为chipMemory。

使用实例

  • Atlas A2 训练系列产品上使用hbm为例。

    ascend-dmi -dg -i hbm

    1
    2
    3
    4
    5
    6
    7
    8
    9
    [***@***]# ascend-dmi -dg -i hbm
    Summary:
        Arch: aarch64
        Mode: ******
        Time: 20250529-19:25:25
     
    Hardware:
        hbm:
            PASS
    
  • Atlas 300I Duo 推理卡上使用chipMemory为例。

    ascend-dmi -dg -i chipMemory

    1
    2
    3
    4
    5
    6
    7
    8
    9
    [***@***]# ascend-dmi -dg -i chipMemory
    Summary:
        Arch: aarch64
        Mode: ******
        Time: 20250529-19:25:25
     
    Hardware:
        chipMemory:
            PASS
    

故障检查项说明

表3 故障检查项说明

回显状态

含义

PASS

片上内存检测通过,无异常。

SKIP

当前硬件形态不支持片上内存检测。

GENERAL_WARN

历史多比特存在隔离页,告警NPU芯片健康管理故障码为0x80E18401;多比特实时隔离页数量>=16且<64;可以继续使用。

EMERGENCY_WARN

  • 历史多比特隔离页数及设备隔离行过多,告警NPU芯片健康管理故障码为0x80E18402,建议更换备件。
  • 相同Stack及PC内的隔离行处于不同Bank的数量 ≥ 4,当前设备运行存在高风险,建议更换备件。
  • 相同Stack、相同Sid及不同PC内的隔离行 ≥ 4,当前设备运行存在高风险,建议更换备件。
  • 相同Stack、Sid、PC及Bank内的隔离行 >16,当前设备运行存在高风险,建议更换备件。
  • 相同Stack、Sid、PC及Bank内,排除4bit及以内相邻的错误地址,其他不同地址的数量 > 5,当前设备运行存在高风险,建议更换备件。
  • 多比特实时隔离页数量>=64,当前设备运行存在高风险,建议更换备件。
    说明:

    使用Atlas 300I Pro 推理卡Atlas 300V 视频解析卡Atlas 300V Pro 视频解析卡Atlas 300I Duo 推理卡产品,NPU芯片故障码为0x80DF8402或者ECC多比特实时隔离页>=64时,当前设备运行存在高风险,建议更换备件。

FAIL

片上内存检测失败,请联系华为工程师处理或参考FAQ进行定位。