NIC诊断
测试项功能
对NPU网口连通性和NPU网口带宽进行诊断,并输出测试结果。
诊断项名称 |
使用Atlas A2 训练系列产品完成一轮诊断的参考耗时 |
使用Atlas 900 A3 SuperPoD 超节点完成一轮诊断的参考耗时 |
是否影响NPU训练或推理 |
使用场景 |
---|---|---|---|---|
nic |
25min~35min |
1h~2h |
是 |
训练或推理业务上线。 |
支持的场景
NIC诊断支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
使用约束
- NIC诊断会影响NPU训练或推理作业,为保证返回检测结果的正确性和准确性,请单独执行。
- 使用NIC诊断前需要保证环境上所有device参数面网络已连通。
测试前准备
在执行NIC诊断前,建议提前在环境上安装fuser软件,以便Ascend DMI对NPU进程进行监测。
测试项参数查询
各参数解释如表3所示。
参数 |
说明 |
是否必填 |
---|---|---|
[-dg, --dg, --diagnosis] |
使用该参数进行整卡的故障诊断测试。 |
是 |
[-i, --items] |
指定具体的诊断检查项:
|
否 |
[-d, --device] |
指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的逻辑ID。
|
否 |
[-r, --result] |
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。若未指定则默认为normal。 当诊断项未通过时,返回的JSON回显示例请参见诊断项未通过时返回的JSON示例-NIC诊断。 |
否 |
[-q, --quiet] |
指定该参数,将不再进行防呆提示,用户将默认允许该操作。
|
否 |
注:
|
使用实例
ascend-dmi -dg -i nic -q
故障检查项说明
回显状态 |
含义 |
---|---|
PASS |
NPU网口连通性正常且网口带宽达到基线值。 |
GENERAL_WARN |
|
IMPORTANT_WARN |
NPU网口带宽未达到基线值。 |
FAIL |
|
SKIP |
当前设备不支持NIC诊断。 |
父主题: 故障诊断