昇腾社区首页
中文
注册

片上内存压测

测试项功能

对高带宽内存进行压力测试,并输出诊断结果。

表1 诊断项说明

诊断项名称

使用Atlas 推理系列产品完成一轮诊断的参考耗时

使用其他产品完成一轮诊断的参考耗时

是否影响NPU训练或推理

使用场景

片上内存压测

6h~7h

1h~3h

训练或推理任务上线前的压测场景;或者在训练或推理任务时,NPU芯片片上内存出现ECC故障。

  • 片上内存压测和片上内存诊断有不同的使用场景,具体请参见表1。请根据实际使用场景选择执行片上内存压测或片上内存诊断。
  • 若想同时使用片上内存诊断、片上内存压测、片上内存高危地址压测请执行一键式片上内存压测诊断

测试项特定参数查询

各参数解释如表2所示,表格内仅展示测试项特定参数,其余公共参数请参见公共参数说明

表2 参数说明

参数

说明

是否必填

[-i, --items]

指定具体的诊断检查项。

  • 当前仅支持指定的诊断项为hbm/chipMemory。hbm和chipMemory不能同时指定。
    • 使用Atlas A2 训练系列产品Atlas 800I A2 推理服务器A200I A2 Box 异构组件Atlas A3 训练系列产品、Atlas A3 推理系列产品时,指定诊断项为hbm。
    • 使用Atlas 300I Pro 推理卡Atlas 300V 视频解析卡Atlas 300V Pro 视频解析卡Atlas 300I Duo 推理卡时,指定诊断项为chipMemory。

[-st, --st, --stress-time]

指定片上内存压力测试的时间。

  • 取值范围是[60,604800],单位为秒。
  • 需要在包含片上内存诊断检查项的场景下,与[-s, --stress]配合使用。

使用实例

  • Atlas 800I A2 推理服务器上使用hbm,指定压测时长为60s为例。

    ascend-dmi -dg -i hbm -s -st 60 -q

     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    [***@***]# ascend-dmi -dg -i hbm -s -st 60 -q
    Stress test is being performed, please wait.
    Summary:
        Arch: aarch64
        Mode: ******
        Time: 20250529-19:36:47
     
    Hardware:
        hbm:
            PASS
    
  • Atlas 300I Duo 推理卡上使用chipMemory,指定压测时长为60s为例。

    ascend-dmi -dg -i chipMemory -s -st 60 -q

     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    [***@***]# ascend-dmi -dg -i chipMemory -s -st 60 -q
    Stress test is being performed, please wait.
    Summary:
        Arch: aarch64
        Mode: ******
        Time: 20250529-19:25:25
     
    Hardware:
        chipMemory:
            PASS
    

故障检查项说明

表3 故障检查项说明

回显状态

含义

PASS

片上内存压测通过。

SKIP

当前设备不支持片上内存压测。

FAIL

  • 片上内存压测失败,有新增的多比特隔离页。用户可在执行片上内存诊断后再进行片上内存压测,更多说明详见图1
  • 软件执行失败。

FAQ:设备device侧内存不足导致片上内存压测失败

图1 片上内存压测及诊断