昇腾社区首页
中文
注册

NIC诊断

测试项功能

对NPU网口连通性和NPU网口带宽进行诊断,并输出测试结果。

表1 诊断项说明

诊断项名称

使用Atlas A2 训练或推理系列产品完成一轮诊断的参考耗时

使用Atlas A3 训练或推理系列产品完成一轮诊断的参考耗时

是否影响NPU训练或推理

使用场景

nic

5min~10min

50min~70min

训练或推理业务上线。

测试项特定参数查询

各参数解释如表2所示,表格内仅展示测试项特定参数,其余公共参数请参见公共参数说明

表2 参数说明

参数

说明

是否必填

[-i, --items]

指定具体的诊断检查项:
  • nic:NPU网口连通性、NPU网口带宽诊断。

使用实例

ascend-dmi -dg -i nic -q

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
[***@***]# ascend-dmi --dg -i nic --fmt json -q
{
    "DiagnosisItems": [
        {
            "group_name": "Hardware",
            "group_results": "PASS",
            "sub_items": [
                {
                    "item_name": "nic",
                    "item_result": "PASS",
                    "result_array": [
                        {
                            "item_result": "PASS"
                        }
                    ]
                }
            ]
        }
    ],
    "Summary": {
        "Arch": "aarch64",
        "Mode": "******",
        "Time": "20250603-16:46:40"
    }
}

故障检查项说明

表3 故障检查项说明

回显状态

含义

PASS

NPU网口连通性正常且网口带宽达到基线值。

GENERAL_WARN

  • NPU网口状态为DOWN。
  • NPU之间的网口未连通。

IMPORTANT_WARN

NPU网口带宽未达到基线值。

FAIL

  • hccn_tool工具安全性校验失败。
  • 获取NPU网口状态失败。
  • 获取NPU网口速率失败。
  • 获取NPU网口的IP失败。
  • NPU网口连通性测试失败。
  • NPU网口reset失败。
  • NPU网口带宽测试失败。

SKIP

当前设备不支持NIC诊断。