片上内存诊断
测试项功能
对高带宽内存进行诊断,并输出诊断结果。

- 片上内存压测和片上内存诊断有不同的使用场景,具体请参见表1。请根据实际使用场景选择执行片上内存压测或片上内存诊断。
- 若想同时使用片上内存诊断、片上内存压测、片上内存高危地址压测请执行一键式片上内存压测诊断。
测试项特定参数查询
使用实例
- 以Atlas A2 训练系列产品上使用hbm为例。
ascend-dmi -dg -i hbm
1 2 3 4 5 6 7 8 9
[***@***]# ascend-dmi -dg -i hbm Summary: Arch: aarch64 Mode: ****** Time: 20250529-19:25:25 Hardware: hbm: PASS
- 以Atlas 300I Duo 推理卡上使用chipMemory为例。
ascend-dmi -dg -i chipMemory
1 2 3 4 5 6 7 8 9
[***@***]# ascend-dmi -dg -i chipMemory Summary: Arch: aarch64 Mode: ****** Time: 20250529-19:25:25 Hardware: chipMemory: PASS
故障检查项说明
回显状态 |
含义 |
---|---|
PASS |
片上内存检测通过,无异常。 |
SKIP |
当前硬件形态不支持片上内存检测。 |
GENERAL_WARN |
历史多比特存在隔离页,告警NPU芯片健康管理故障码为0x80E18401;多比特实时隔离页数量>=16且<64;可以继续使用。 |
EMERGENCY_WARN |
|
FAIL |
片上内存检测失败,请联系华为工程师处理或参考FAQ进行定位。 |
父主题: 健康检查场景