昇腾社区首页
中文
注册
开发者
下载

芯片诊断

测试项功能

对芯片健康状态进行诊断,并输出诊断结果。Atlas A3 训练及推理产品包含总线设备芯片的健康诊断。

表1 诊断项说明

诊断项名称

参考耗时

是否影响NPU训练或推理

使用场景

device诊断

2s~4s

训练或推理业务上线、巡检、硬件出现故障。

测试项特定参数查询

各参数解释如表2所示,表格内仅展示测试项特定参数,其余公共参数请参见公共参数说明

表2 参数说明

参数

说明

是否必填

[-i, --items]

指定具体的诊断检查项:
  • 指定设备健康诊断,取值为device。

使用实例

ascend-dmi -dg -i device

1
2
3
4
5
6
7
8
9
[***@***]# ascend-dmi -dg -i device
Summary:
    Arch: aarch64
    Mode: ******
    Time: 20250529-19:21:08
 
Hardware:
    device:
        HEALTH

故障检查项说明

表3 故障检查项说明

回显状态

含义

HEALTH

device检测结果健康。

SKIP

当前产品形态不支持该项检测。

GENERAL_WARN

一般警告(警告内容参考界面中提示的错误信息)。

IMPORTANT_WARN

重要警告(警告内容参考界面中提示的错误信息)。

EMERGENCY_WARN

紧急警告(警告内容参考界面中提示的错误信息)。

WARN

未知的总线网络设备故障。

FAIL

device诊断失败。