昇腾社区首页
中文
注册

一键式打流

测试项功能

一键式打流是指在NPU外部环回(CDR环回或者外接光纤回路器)场景,NPU的RoCE网口进行自发自收的码流测试。

测试项名称

支持的打流方式

使用方法

一键式打流

CDR环回打流、光模块外接光纤回路器(自环器)打流

执行一键式打流命令,Ascend DMI工具将自动完成发送及接收指定device所有lane的码流,一段时间后关闭码流并查询结果。

自定义打流

CDR环回打流、光模块外接光纤回路器(自环器)打流、NPU直连打流

自定义打流是将一键式打流中的各步骤独立出来,用户可灵活控制打流的TX、RX方向开关和指定打流的具体lane。

测试原理

一键式打流:对指定NPU的serdes端口打开TX方向打流后,数据流通过被测链路传输到回环单元(CDR或者光纤回路器),再经过被测链路回传,被该NPU的RX方向接收到。RX方向统计打流期间数据流经过链路产生的误码情况,用于检查链路信号质量。

一键式打流支持以下2种打流方式。

  • CDR环回打流:是指单个Device同时发送和接收,可用于检查从NPU的物理serdes端口到CDR单元的信号质量。在打流前,请确保光模块在位,然后再进行CDR环回配置,参数说明请参考《Atlas A2 中心推理和训练硬件 25.0.RC1 HCCN Tool 接口参考》的“配置功能>配置和查询CDR相关信息”章节
  • 光模块外接光纤回路器(自环器)打流:单个Device同时发送和接收,可用于检查NPU的物理serdes端口到光模块的信号质量,不需要设置环回。
    图1 一键式打流原理图

使用场景

码流测试主要用于查询RoCE网口信号质量的具体数据。定位RoCE网口信号质量问题,请执行PRBS码流诊断

测试前准备

  • 打流会中断训练或推理业务,打流前请确保无业务运行。
  • 如果使用外接光纤回路器打流,打流前无需额外配置;如果使用CDR环回,请确保光模块在位然后配置CDR环回。CDR配置环回方法请参考《Atlas A2 中心推理和训练硬件 25.0.RC1 HCCN Tool 接口参考》的“配置功能>配置和查询CDR相关信息”章节

测试项特定参数查询

用户可任选以下指令之一查看码流测试命令的可用参数。

ascend-dmi --prbs-check -h

ascend-dmi --prbs-check --help

各参数解释如表1所示,表格内仅展示测试项特定参数,其余公共参数请参见公共参数说明

表1 参数说明

参数

说明

是否必填

[-pc, --pc, --prbs-check]

使用该参数进行PRBS码流测试。

[-dur, --dur, --duration]

指定码流测试的时长。

  • 参数取值范围为[3,10],单位为秒。
  • 不指定该参数时,默认值为3。

使用实例

  • 以在Device 8和Device 9上进行码流测试为例。
    [***@***]# ascend-dmi --prbs-check -d 8,9 -dur 5
    This operation will make network port on devices down, please make sure no business is running on devices.
     Do you want to continue?(Y/N)y
    PRBS31 on device 8:
    -----------------------------------------------------------------------------------------------
    lane                error count         error rate          alos                time(ms)
    -----------------------------------------------------------------------------------------------
    0                   21                  0.0000000079%       0                   5020
    1                   12                  0.0000000045%       0                   5020
    2                   34                  0.0000000128%       0                   5014
    3                   4                   0.0000000015%       0                   5015
    -----------------------------------------------------------------------------------------------
    PRBS31 on device 9:
    -----------------------------------------------------------------------------------------------lane                error count         error rate          alos                time(ms)
    -----------------------------------------------------------------------------------------------
    0                   24                  0.0000000090%       0                   5033
    1                   71                  0.0000000266%       0                   5027
    2                   12                  0.0000000045%       0                   5026
    3                   70                  0.0000000262%       0                   5023
    -----------------------------------------------------------------------------------------------
  • 以指定输出格式为json为例。

    ascend-dmi -pc -d 9 -dur 5 -fmt json

    若返回如下所示信息,表示误码率正常。

    [***@***]# ascend-dmi -pc -d 9 -dur 5 -fmt json
    This operation will make network port on devices down, please make sure no business is running on devices.
     Do you want to continue?(Y/N)y
    {
        "prbs": [
            {
                "device": 9,
                "pattern": "PRBS31",
                "prbs_result": [
                    {
                        "alos": 0,
                        "error_cnt": 19,
                        "error_rate": "0.0000000071%",
                        "lane": 0,
                        "time": 5018
                    },
                    {
                        "alos": 0,
                        "error_cnt": 194,
                        "error_rate": "0.0000000728%",
                        "lane": 1,
                        "time": 5017
                    },
                    {
                        "alos": 0,
                        "error_cnt": 12,
                        "error_rate": "0.0000000045%",
                        "lane": 2,
                        "time": 5019
                    },
                    {
                        "alos": 0,
                        "error_cnt": 6,
                        "error_rate": "0.0000000023%",
                        "lane": 3,
                        "time": 5017
                    }
                ]
            }
        ]
    }

    在以上示例中,各回显参数的说明如下表所示。

    表2 参数回显说明

    参数

    说明

    device

    表示NPU的逻辑ID。

    lane

    表示RoCE链路的lane通道ID。

    error count

    误码数,JSON格式中为“error_cnt”。

    最大值为67092480,表示满误码。

    error rate

    误码率。

    当误码率小于10-5为信号质量正常。

    alos

    取值为:0、1。

    值为0表示正常

    值为1通常表示输入信号幅度过低。

    times

    表示打流时长,JSON格式中为“time”。

    以下几种情况可能导致满误码(误码数为67092480):

    • 打流流程会自动关闭NPU和CDR自适应,多次执行打流命令时会反复开关自适应,当自适应开关动作未完成时,偶现误码数为67092480。
    • CDR环回场景下,未配置CDR环回或环回未配置成功,CDR环回详细配置步骤请参见《Atlas A2 中心推理和训练硬件 25.0.RC1 HCCN Tool 接口参考》的“配置功能>配置和查询CDR相关信息”章节

后续操作

  • 为避免对正在运行的训练或推理业务造成影响,请在完成码流测试后,关闭该测试项。
  • 若使用CDR环回打流,请在完成打流后解除CDR环回,否则业务无法正常运行。解除CDR环回请参见《Atlas A2 中心推理和训练硬件 25.0.RC1 HCCN Tool 接口参考》的“配置功能>配置和查询CDR相关信息”章节