昇腾社区首页
中文
注册
开发者
下载

AICORE诊断

测试项功能

对AICore ERROR进行诊断,并输出诊断结果。

表1 诊断项说明

诊断项名称

参考耗时

是否影响NPU训练或推理

使用场景

aicore诊断

3min~8min

训练或推理任务巡检、上线时,请执行3次aicore诊断,3轮全部通过表示aicore诊断正常。任意一轮回显为EMERGENCY_WARN即表示芯片故障,需更换硬件。

  • AICORE压测和AICORE诊断有不同的使用场景,具体请参见表1。请根据实际使用场景选择执行AICORE压测或AICORE诊断。
  • 若想同时使用AICORE/片上内存(全量压测)/P2P压测请执行一键式组合诊断

测试项特定参数查询

各参数解释如表2所示,表格内仅展示测试项特定参数,其余公共参数请参见公共参数说明

表2 参数说明

参数

说明

是否必填

[-i, --items]

指定具体的诊断检查项:
  • aicore:AICore ERROR诊断。

[-sc, --sc, --stress-count]

指定AICORE诊断的次数。

  • 仅支持items指定aicore时,此参数才可使用;未指定该参数时,默认值为1,参数取值范围为[1, 100]。

使用实例

ascend-dmi -dg -i aicore -q

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
[***@***]# ascend-dmi -dg -i aicore  -q
Stress test is being performed, please wait.
Summary:
    Arch: aarch64
    Mode: ******
    Time: 20250529-19:35:34
 
Hardware:
    aicore:
        PASS

故障检查项说明

表3 故障检查项说明

回显状态

含义

PASS

诊断结果无异常。

SKIP

  • 执行诊断的用户为非root用户。
  • 当前设备不支持AICORE诊断。

EMERGENCY_WARN

紧急警告,建议更换硬件。

FAIL

AICORE诊断失败,请联系华为工程师处理或参考FAQ进行定位。