PRBS码流诊断
测试项功能
通过对NPU芯片的RoCE网口收发PRBS码流,诊断硬件链路的通信信号质量。
prbs码流诊断支持以下2种打流方式:
- CDR环回打流:单个Device同时发送和接收,可用于检查从NPU的物理serdes端口到CDR单元的信号质量。在打流前,请确保光模块在位,然后再进行CDR环回配置。执行如下命令配置或解除CDR回环,其余参数说明请参考《Atlas A2 中心推理和训练硬件 24.1.0 HCCN Tool 接口参考》的“配置功能>配置和查询CDR相关信息”章节。
- 光模块外接光纤回路器(自环器)打流:单个Device同时发送和接收,可用于检查NPU的物理serdes端口到光模块的信号质量,不需要设置环回。
诊断项名称 |
使用Atlas A2 训练系列产品完成一轮诊断的参考耗时 |
是否影响NPU训练或推理 |
使用场景 |
---|---|---|---|
prbs码流诊断 |
3s~10s |
是 |
定位RoCE网口信号质量问题。 |
支持的场景
prbs码流诊断支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
使用约束
- 当前仅支持root用户使用prbs码流诊断。
- prbs码流诊断会影响NPU训练或推理作业,为保证返回检测结果的正确性和准确性,请单独执行。
- 执行prbs打流流程会自动关闭NPU和CDR自适应,多次执行打流命令时会反复开关自适应,当自适应开关动作未完成时,偶现误码数为67092480为正常现象。
- 若使用CDR环回打流,请在完成打流后解除CDR环回,详情请参见《Atlas A2 中心推理和训练硬件 24.1.0 HCCN Tool 接口参考》的“配置功能>配置和查询CDR相关信息”章节。
测试项参数查询
各参数解释如表3所示。
参数 |
说明 |
是否必填 |
---|---|---|
[-dg, --dg, --diagnosis] |
使用该参数进行整卡的故障诊断测试。 |
是 |
[-i, --items] |
指定具体的诊断检查项:
|
是 |
[-d, --device] |
指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的逻辑ID。
|
否 |
[-td, --td, --trans-duration] |
指定RoCE端口prbs码流诊断的时长。
|
否 |
[-r, --result] |
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。若未指定则默认为normal。 当诊断项未通过时,返回的json回显示例请参见诊断项未通过时返回的json示例-PRBS。 |
否 |
[-q, --quiet] |
|
否 |
注:
|
使用实例
1 | ascend-dmi -dg -i prbs -d 0,1 --td 3 |
故障检查项说明
回显状态 |
含义 |
---|---|
IMPORTANT_WARN |
重要警告 RoCE端口存在误码,且误码率大于10-5,请联系华为工程师处理。 |
SKIP |
|
PASS |
码流检测通过。RoCE端口信号质量正常(误码率小于10-5)。 |
FAIL |
|
父主题: 故障诊断