昇腾社区首页
中文
注册

网络健康诊断

测试项功能

对网络健康状态进行诊断,并输出诊断结果。

表1 诊断项说明

诊断项名称

参考耗时

是否影响NPU训练或推理

使用场景

network

≤10s

训练或推理业务巡检、上线、网络出现故障。

测试前准备

在执行network诊断前,需在Host侧以root用户配置RoCE网卡IP地址和子网掩码,然后配置用于网络检测对象IP地址,否则可能导致诊断失败。

测试项特定参数查询

各参数解释如表2所示,表格内仅展示测试项特定参数,其余公共参数请参见公共参数说明

表2 参数说明

参数

说明

是否必填

[-i, --items]

指定具体的诊断检查项:
  • network:网络健康诊断。

使用实例

ascend-dmi -dg -i network

1
2
3
4
5
6
7
8
9
[***@***]# ascend-dmi -dg -i network
Summary:
    Arch: aarch64
    Mode: ******
    Time: 20250529-19:22:43
 
Hardware:
    network:
        PASS

故障检查项说明

表3 故障检查项说明

回显状态

含义

PASS

网络检测结果健康。

SKIP

当前产品形态不支持该项检测。

INFO

网络检测结果提示。

WARN

网络检测结果告警。

FAIL

网络检测结果失败。