昇腾社区首页
中文
注册

带宽诊断

测试项功能

对本地带宽进行诊断,并输出诊断结果。

表1 诊断项说明

诊断项名称

参考耗时

是否影响NPU训练或推理

使用场景

bandwidth

1min~15min

训练或推理业务上线。

测试前准备

在执行bandwidth诊断前,建议提前在环境上安装fuser软件,以便Ascend DMI对NPU进程进行监测。

测试项特定参数查询

各参数解释如表2所示,表格内仅展示测试项特定参数,其余公共参数请参见公共参数说明

表2 参数说明

参数

说明

是否必填

[-i, --items]

指定具体的诊断检查项:
  • bandwidth:本地带宽,包含Host to Device、Device to Host、Device to Device、Peer to Peer四个方向。

使用实例

ascend-dmi --dg -i bandwidth

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
[***@***]# ascend-dmi --dg -i bandwidth
This test will affect the business on this server. To ensure the correctness and accuracy of the test, perform the operation separately.Do you want to continue?(Y/N)y
Summary:
    Arch: aarch64
    Mode: ******
    Time: 20250529-19:29:06
 
Hardware:
    bandwidth:
        PASS

故障检查项说明

表3 故障检查项说明

回显状态

含义

PASS

带宽测试结果正常。

SKIP

Atlas A3 训练系列产品、Atlas A3 推理系列产品的容器场景下,执行诊断的用户为非root用户。

FAIL

  • 带宽测试执行失败。
  • 带宽测试结果小于参考值。
  • 处理方案:请联系华为工程师处理或参考FAQ进行定位。