昇腾社区首页
中文
注册

眼图测试

Ascend DMI支持眼图测试,用户使用该功能对网络进行测试,查询当前信号质量。

本功能主要用于查询信号质量的具体数据。判断当前端口信号质量是否正常,请执行signalQuality诊断。详细说明请参考眼图诊断章节。

测试项功能

查询NPU上的PCIe、HCCS和RoCE通信端口的信号质量。

测试项特定参数查询

用户可任选以下指令之一查看信号质量查询命令的可用参数。

ascend-dmi --sq -h

ascend-dmi --sq --help

各参数解释如表1所示,表格内仅展示测试项特定参数,其余公共参数请参见公共参数说明

表1 参数说明

参数

说明

是否必填

[-sq, --sq, --signal-quality]

查询NPU上的PCIe、HCCS和RoCE通信端口;CPU上的HCCS通信端口的信号质量。

[-d, --device]

指定查询NPU或CPU的Device ID。指定多个芯片时,使用英文逗号进行分隔。不指定该参数时,默认查询该设备上所有的NPU/CPU。

  • 若当前设备为Atlas A2 训练系列产品Atlas 800I A2推理产品A200I A2 Box 异构组件,指定HCCS类型时,需要指定两张device;若使用Atlas 200T A2 Box16 异构子框指定HCCS类型时,前8P或后8P至少指定两张device。
  • 若当前设备为Atlas 300I Duo 推理卡,当type参数指定了pcie,该参数不能指定从芯片。

[-t --type]

指定通信端口的类型。当前支持PCIe、HCCS和RoCE三种类型,指定多个通信端口的类型时,使用英文逗号进行分隔。

  • Atlas 800T A2 训练服务器Atlas 900 A2 PoD 集群基础单元Atlas 900 A2 PoDc 集群基础单元Atlas 200T A2 Box16 异构子框Atlas 800I A2 推理服务器A200I A2 Box 异构组件A200T A3 Box8 超节点默认查询PCIe和RoCE的信号质量。
  • Atlas 800I A3 超节点Atlas 9000 A3 SuperPoD 集群算力系统Atlas 900 A3 SuperPoD 超节点默认查询RoCE的信号质量。
  • Atlas 300I Duo 推理卡服务器场景下,主芯片仅支持PCIe和HCCS,从芯片仅支持HCCS。默认查询PCIe的信号质量。
  • Atlas 800I A2 推理服务器(32GB PCIe款)不支持查询HCCS的信号质量。

取值说明如下:

  • pcie

    PCIe链路是NPU到CPU之间进行通信的链路,PCIe信号质量是指NPU侧连接PCIe链路的macro口四眼图的数值。

  • hccs

    HCCS链路是多张NPU之间互联的链路。HCCS信号质量是指NPU侧连接HCCS链路的macro口的信噪比和半眼高的数值。

  • roce

    RoCE链路是NPU侧对外进行集群通信的链路。RoCE信号质量是指NPU侧连接RoCE链路的macro口的信噪比和半眼高的数值。

[-m, --module]

支持查询CPU、NPU眼图。不指定该参数时,默认查询NPU眼图。

使用实例

使用实例中命令的回显在推理服务器与训练服务器上类似,截图取自训练服务器。

  • 以查看Device 0和Device 1的PCIe、HCCS和RoCE信号质量为例。

    ascend-dmi --sq -t hccs,pcie,roce -d 0,1

    若返回如图1所示信息,表示工具运行正常。

    图1 设备信号质量检测示例

  • 以指定输出格式为json为例。

    ascend-dmi --signal-quality -t roce -d 0 --fmt json

    若返回如图2所示信息,表示工具运行正常。
    图2 设备信号质量检测json输出示例

    图1 设备信号质量检测示例为例,上述回显参数介绍如下表所示:

    表2 HCCS信号质量回显参数说明

    参数

    说明

    type

    指定通信端口的类型。

    device

    NPU的逻辑ID。

    M*(macro port)

    表示macro端口,例如M0、M1分别表示macro的0号、1号端口。

    L*(LANE)

    表示HCCS链路中的第几条lane,例如L0、L1分别表示第0条和第1条lane。

    S(SNR)

    表示lane的信噪比。

    H(HEH)

    表示lane的半眼高。

    B/T/L/R

    分别表示四眼图bottom、top、left和right四个位置的值。

    数据说明:

    • 在HCCS信号质量回显中,当SNR≥400000且HEH≥350,即表示当前LANE信号质量正常。
    • 若SNR和HEH数值不在以上范围内,即表示HCCS信号质量异常。请检查macro连接口是否发生松动,链路是否有脏污。
    • 若SNR和HEH的数值为0,说明测试的HCCS链路中指定的Device之间未建链。
    • 使用Atlas 300I Duo 推理卡查询NPU的HCCS信号质量;或使用Atlas 900 A3 SuperPoD 超节点Atlas 800I A3 超节点Atlas 9000 A3 SuperPoD 集群算力系统查询CPU的HCCS信号质量回显时,只会展示type、device、M*(macro port)、L*(LANE)、B/T/L/R回显参数,且B/T/L/R中B(bottom)≤-30、T(top)≥30、L(left)≤-5、R(right)≥5。
    表3 PCIe信号质量回显参数说明

    参数

    说明

    type

    指定通信端口的类型。

    device

    表示NPU的逻辑ID。

    M*(macro port)

    表示macro端口,例如M9、M10分别表示macro的9号、10号端口。

    L*(LANE)

    表示PCIe链路中的第几条lane,例如L0、L1分别表示第0条和第1条lane。

    B/T/L/R

    分别表示四眼图bottom、top、left和right四个位置的值。

    数据说明:

    • 在PCIe信号质量回显中,当四眼图B(bottom)≤-17、T(top)≥17、L(left)≤-3、R(right)≥3(须同时满足),即表示当前LANE信号质量正常。
    • 若四眼图数值不在以上范围内,即表示PCIe信号质量异常。请检查macro连接口是否发生松动,链路是否有脏污。
    • Atlas 300I Duo 推理卡场景下,B/T/L/R的范围为B(bottom)≤-30、T(top)≥30、L(left)≤-5、R(right)≥5。
    表4 RoCE信号质量回显参数说明

    参数

    说明

    type

    指定通信端口的类型。

    device

    表示NPU的逻辑ID。

    M*(macro port)

    表示macro端口,例如M0分别表示macro端口0。

    S(SNR)

    表示lane的信噪比。

    H(HEH)

    表示lane的半眼高。

    L*(LANE)

    表示RoCE链路中的第几条lane,例如L0、L1分别表示第0条和第1条lane。

    数据说明:

    • 在RoCE信号质量回显中,当SNR≥400000且HEH≥350,即表示当前LANE信号质量正常。
    • 若SNR和HEH数值不在以上范围内,即表示RoCE信号质量异常。请检查macro连接口是否发生松动,链路是否有脏污。
    • 若SNR和HEH的数值为0,说明测试的RoCE链路中指定的Device之间未建链。
    图3 SNR和HEH数值为0时的回显示例
    [root@*****~]#  ascend-dmi --sq -t roce
    type: roce
    Prompt message: M*: macro port, L*: lane, S: SNR, H: HEH
    ----------------------------------------------------------------
        device               signal-to-noise ratio
    ----------------------------------------------------------------
          0                  M0:    L0: S:0   H:0     L1: S:0   H:0
                                    L2: S:0   H:0     L3: S:0   H:0
    ----------------------------------------------------------------
          1                  M0:    L0: S:0   H:0     L1: S:0   H:0
                                    L2: S:0   H:0     L3: S:0   H:0
    ----------------------------------------------------------------
          2                  M0:    L0: S:0   H:0     L1: S:0   H:0
                                    L2: S:0   H:0     L3: S:0   H:0
    ----------------------------------------------------------------
          3                  M0:    L0: S:0   H:0     L1: S:0   H:0
                                    L2: S:0   H:0     L3: S:0   H:0
    ----------------------------------------------------------------
          4                  M0:    L0: S:0   H:0     L1: S:0   H:0
                                    L2: S:0   H:0     L3: S:0   H:0
    ----------------------------------------------------------------
          5                  M0:    L0: S:0   H:0     L1: S:0   H:0
                                    L2: S:0   H:0     L3: S:0   H:0
    ----------------------------------------------------------------
          6                  M0:    L0: S:0   H:0     L1: S:0   H:0
                                    L2: S:0   H:0     L3: S:0   H:0
    ----------------------------------------------------------------
          7                  M0:    L0: S:0   H:0     L1: S:0   H:0
                                    L2: S:0   H:0     L3: S:0   H:0