Ascend DMI提供一键式片上内存压测诊断功能,即执行一次命令即可进行片上内存诊断、片上内存压测、片上内存高危地址压测,并输出测试结果。
诊断项名称 |
使用Atlas A2 训练系列产品完成一轮诊断的参考耗时 |
使用Atlas 900 A3 SuperPoD 集群算力系统完成一轮诊断的参考耗时 |
是否影响NPU训练或推理 |
使用场景 |
---|---|---|---|---|
(推荐)一键式片上内存压测诊断 |
<3h |
<3h |
是 |
训练或推理任务时,NPU芯片出现HBM ECC故障,有新增隔离页。 |
片上内存诊断 |
2s~4s |
≤2min |
否 |
训练或推理任务时,NPU芯片出现HBM ECC故障:设备出现0x80E01801故障码。 |
片上内存压测 |
1h~3h |
2h~3h |
是 |
片上内存诊断结果为GENERAL_WARN、PASS或IMPORTANT_WARN。 |
片上内存高危地址压测 |
≤17min |
≤17min |
是 |
片上内存诊断结果出现单比特或多比特错误。 |
片上内存压测和片上内存诊断有不同的使用场景,具体请参见表1。请根据实际使用场景选择执行片上内存压测或片上内存诊断。
一键式片上内存压测诊断支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
压测过程中可能涉及芯片复位,需使用root用户执行压测,否则会导致复位失败。
在执行本诊断项前,建议提前在环境上安装fuser软件,以便Ascend DMI对NPU进程进行监测。
各参数解释如表3所示。
参数 |
说明 |
是否必填 |
---|---|---|
[-dg, --dg, --diagnosis] |
使用该参数进行整卡的故障诊断测试。 |
是 |
[-i, --items] |
指定片上内存压测诊断,取值为hbm。 不传入此参数,则默认执行除aicore和prbs外其他检查项的诊断。 |
是 |
[-s, --stress] |
使用该参数进行压力测试。 |
是 |
[-at, --at, --auto-test] |
使用该参数进行自动压测。 当[-i, --items]后检查项包含hbm且指定-s参数时,此参数才会生效。 |
是 |
[-d, --device] |
指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的逻辑ID。
|
否 |
[-r, --result] |
指定压测结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。
|
否 |
[-q, --quiet] |
|
否 |
注: ascend-dmi --dg后使用-i,-r等多个二级参数时,可任意指定这些参数的排列顺序,不影响命令结果输出。 |
ascend-dmi -dg -i hbm -s --auto-test -q
参数 |
说明 |
---|---|
PASS |
一键式片上内存压测诊断通过,无异常。 |
EMERGENCY_WARN |
|
SKIP |
当前产品形态不支持该项检测。 |
FAIL |
|