昇腾社区首页
中文
注册

片上内存高危地址压测

测试项功能

对高带宽内存高危地址进行压力测试,并输出诊断结果。

表1 诊断项说明

诊断项名称

参考耗时

是否影响NPU训练或推理

使用场景

片上内存高危地址压测

≤17min

片上内存诊断结果出现单比特或多比特错误。

  • 片上内存压测和片上内存诊断有不同的使用场景,具体请参见表1。请根据实际使用场景选择执行片上内存压测或片上内存诊断。
  • 若想同时使用片上内存诊断、片上内存压测、片上内存高危地址压测请执行一键式片上内存压测诊断

测试项特定参数查询

各参数解释如表2所示,表格内仅展示测试项特定参数,其余公共参数请参见公共参数说明

表2 参数说明

参数

说明

是否必填

[-i, --items]

指定具体的诊断检查项。

  • 当前支持指定的诊断项为hbm/chipMemory,hbm和chipMemory不能同时指定。

[-qs, --qs, --quick stress]

指定高带宽内存高危地址快速压测的范围。

  • 该参数取值范围为[0,100]。参数推荐值:100。
  • 取值为0时,默认对所有高带宽内存地址进行快速压测。
  • 需要在包含hbm诊断检查项的场景下,与[-s, --stress]配合使用,不能和[-st, --st, --stress-time]、[--sc, --stress-count]同时使用。

使用实例

以指定压测范围取值为100为例:

ascend-dmi -dg -i hbm -s -qs 100 -q

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
[***@***]# ascend-dmi -dg -i hbm -s -qs 100 -q
Stress test is being performed, please wait.
Summary:
    Arch: aarch64
    Mode: ******
    Time: 20250529-19:37:16
 
Hardware:
    hbm:
        PASS

故障检查项说明

表3 故障检查项说明

回显状态

含义

PASS

高带宽内存高危地址快速压测通过,无新增隔离页数。

SKIP

当前设备不支持片上内存高危地址压测。

FAIL

高带宽内存高危地址快速压测失败,有新增隔离页数。