昇腾社区首页
中文
注册
开发者
下载

一键式片上内存压测诊断

测试项功能

Ascend DMI提供一键式片上内存压测诊断功能,即执行一次命令即可进行片上内存诊断、片上内存压测、片上内存高危地址压测,并输出测试结果。

表1 诊断项说明

诊断项名称

参考耗时

是否影响NPU训练或推理

使用场景

一键式片上内存压测诊断

<3h

训练或推理任务时,NPU芯片片上内存出现ECC故障,有新增隔离页。

  • 片上内存压测和片上内存诊断有不同的使用场景,具体请参见表1。请根据实际使用场景选择执行片上内存压测或片上内存诊断。

  • 若想同时使用片上内存诊断、片上内存压测、片上内存高危地址压测请执行一键式片上内存压测诊断

测试项特定参数查询

各参数解释如表2所示,表格内仅展示测试项特定参数,其余公共参数请参见公共参数说明

表2 参数说明

参数

说明

是否必填

[-at, --at, --auto-test]

使用该参数进行自动压测。

当[-i, --items]后检查项包含hbm且指定-s参数时,此参数才会生效。

[-st, --st, --stress-time]

指定片上内存压力测试的时间。由于组合压测诊断命令会额外执行片上内存诊断、高危地址压测等功能,实际执行时间会比指定时间偏多。

  • 取值范围是[60,604800],单位为秒。
  • 需要在包含片上内存诊断检查项的场景下,与[-s, --stress]配合使用。

使用实例

ascend-dmi -dg -i hbm -s --auto-test -q

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
[***@***]# ascend-dmi -dg -i hbm -s --auto-test -q
Stress test is being performed, please wait.
Summary:
    Arch: aarch64
    Mode: ******
    Time: 20250529-19:08:50

Hardware:
    hbm:
        PASS

故障检查项说明

表3 回显参数说明

参数

说明

PASS

一键式片上内存压测诊断通过,无异常。

EMERGENCY_WARN

  • 历史多比特隔离页数及设备隔离行过多,告警NPU芯片健康管理故障码为0x80E18402,建议更换备件。
  • 相同Stack及PC内的隔离行处于不同Bank的数量 ≥ 4,当前设备运行存在高风险,建议更换备件。
  • 相同Stack、相同Sid及不同PC内的隔离行 ≥ 4,当前设备运行存在高风险,建议更换备件。
  • 相同Stack、Sid、PC及Bank内的隔离行 >16,当前设备运行存在高风险,建议更换备件。
  • 相同Stack、Sid、PC及Bank内,排除4bit及以内相邻的错误地址,其他不同地址的数量 > 5,当前设备运行存在高风险,建议更换备件。
  • 压测过程中连续3次有隔离页增加。

SKIP

当前产品形态不支持该项检测。

FAIL