BandWidth诊断
测试项功能
对本地带宽进行诊断,并输出诊断结果。
诊断项名称 |
使用Atlas A2 训练系列产品完成一轮诊断的参考耗时 |
使用Atlas 900 A3 SuperPoD 超节点完成一轮诊断的参考耗时 |
是否影响NPU训练或推理 |
使用场景 |
---|---|---|---|---|
bandwidth |
1min~5min |
15min~20min |
是 |
训练或推理业务上线。 |
支持的场景
带宽诊断支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
场景/产品型号 |
|||||||
---|---|---|---|---|---|---|---|
物理机 |
Y |
Y |
Y |
Y |
Y |
Y |
|
宿主机+容器 |
Y |
Y |
N |
Y |
|||
虚拟机 |
N |
N |
N |

- 仅Atlas 800 训练服务器(型号 9000)、Atlas 900 PoD(型号 9000)、Atlas 900T PoD Lite产品支持。
- 仅Atlas 200 AI加速模块(EP场景)、Atlas 300I 推理卡(型号 3000)、Atlas 300I 推理卡(型号 3010)、Atlas 500 Pro 智能边缘服务器(型号 3000)支持。
- 仅Atlas 300I 推理卡(型号 3000)、Atlas 300I 推理卡(型号 3010)、Atlas 500 Pro 智能边缘服务器(型号 3000)支持。
- 仅Atlas 300I Pro 推理卡、Atlas 300I Duo 推理卡、Atlas 300V Pro 视频解析卡、Atlas 300V 视频解析卡支持。
- 仅Atlas 300I Pro 推理卡、Atlas 300I Duo 推理卡、Atlas 300V Pro 视频解析卡、Atlas 300V 视频解析卡、Atlas 200I SoC A1 核心板支持。
- 仅支持root用户在容器场景下进行带宽诊断。
- 仅A200T A3 Box8 超节点服务器支持。
使用约束
- 带宽诊断会影响NPU训练或推理作业,为保证返回检测结果的正确性和准确性,请单独执行。
- 为确保带宽诊断效果准确性,建议在训练或推理业务开局的时候执行带宽诊断,因为例如CCAE或npu-exporter组件会调用dcmi接口监测环境状态,会占用一定的带宽,导致带宽诊断的结果存在误差。
- Atlas 200T A2 Box16 异构子框在虚拟机场景下,由于数据传输通道的特殊性,BandWidth诊断将不执行两个8p之间的P2P测试。
测试前准备
在执行bandwidth诊断前,建议提前在环境上安装fuser软件,以便Ascend DMI对NPU进程进行监测。
测试项参数查询
各参数解释如表3所示。
参数 |
说明 |
是否必填 |
---|---|---|
[-dg, --dg, --diagnosis] |
使用该参数进行整卡的故障诊断测试。 |
是 |
[-i, --items] |
指定具体的诊断检查项:
|
否 |
[-d, --device] |
指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的逻辑ID。
|
否 |
[-r, --result] |
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。若未指定则默认为normal。 当诊断项未通过时,返回的json回显示例请参见诊断项未通过时返回的json示例-BandWidth。 |
否 |
[-q, --quiet] |
指定该参数,将不再进行防呆提示,用户将默认允许该操作。
|
否 |
注:
|
使用实例
ascend-dmi --dg -i driver,bandwidth,cann -d 0
故障检查项说明
回显状态 |
含义 |
---|---|
PASS |
带宽测试结果正常。 |
SKIP |
在Atlas A3 训练系列产品中的容器场景下,执行诊断的用户为非root用户。 |
FAIL |
|