一键式片上内存压测诊断
测试项功能
Ascend DMI提供一键式片上内存压测诊断功能,即执行一次命令即可进行片上内存诊断、片上内存压测、片上内存高危地址压测,并输出测试结果。
诊断项名称 |
参考耗时 |
是否影响NPU训练或推理 |
使用场景 |
|---|---|---|---|
一键式片上内存压测诊断 |
<3h |
是 |
训练或推理任务时,NPU芯片片上内存出现ECC故障,有新增隔离页。 |
片上内存压测和片上内存诊断有不同的使用场景,具体请参见表1。请根据实际使用场景选择执行片上内存压测或片上内存诊断。
- 若想同时使用片上内存诊断、片上内存压测、片上内存高危地址压测请执行一键式片上内存压测诊断。
测试项特定参数查询
使用实例
ascend-dmi -dg -i hbm -s --auto-test -q
1 2 3 4 5 6 7 8 9 10 | [***@***]# ascend-dmi -dg -i hbm -s --auto-test -q Stress test is being performed, please wait. Summary: Arch: aarch64 Mode: ****** Time: 20250529-19:08:50 Hardware: hbm: PASS |
故障检查项说明
参数 |
说明 |
|---|---|
PASS |
一键式片上内存压测诊断通过,无异常。 |
EMERGENCY_WARN |
|
SKIP |
当前产品形态不支持该项检测。 |
FAIL |
|
父主题: 压力测试场景