昇腾社区首页
中文
注册

眼图测试

ascend-dmi支持眼图测试,用户使用该功能对网络进行测试,查询当前信号质量。

使用约束

  • 该功能目前只支持Atlas 800T A2 训练服务器Atlas 900 A2 PoD 集群基础单元Atlas 200T A2 Box16 异构子框Atlas 800I A2 推理服务器

测试项功能

查询NPU上的PCIe、HCCS和RoCE通信端口的信号质量。

测试项参数查询

用户可任选以下指令之一查看信号质量查询命令的可用参数。

ascend-dmi --sq -h

ascend-dmi --sq --help

各参数解释如表1所示。

表1 参数说明

参数

说明

是否必填

[-sq, --sq, --signalQuality]

查询NPU上的PCIe、HCCS和RoCE通信端口的信号质量。

说明:

建议使用--sq或--signalQuality。

[-d, --device]

指定查询的Device ID。指定多个芯片时,使用英文逗号进行分隔。不指定该参数时,默认查询该设备上所有的NPU。

当type参数指定了HCCS,需要指定至少2个Device ID。若当前设备为Atlas 200T A2 Box16 异构子框,前8P或后8P至少指定两张device

[-t --type]

指定通信端口的类型。当前支持PCIe、HCCS和RoCE三种类型,指定多个通信端口的类型时,使用英文逗号进行分隔。不指定该参数时,默认查询PCIe和RoCE的信号质量。取值如下:

  • pcie
  • hccs
  • roce
说明:
  • Atlas 800I A2 推理服务器(32G)不支持查询HCCS的信号质量。
  • Atlas 800I A2 推理服务器(64G)支持查询HCCS的信号质量。

[-fmt, --fmt, --format]

指定输出格式,可以为normal或json。若未指定则默认为normal。

  • 本文档输入或输出的Device ID都是芯片逻辑ID。
  • 用户可以执行npu-smi info -m命令,在显示界面表格中的Chip Logic ID参数处获得芯片逻辑ID,NPU ID则为对应的芯片物理ID。

使用实例

使用实例中命令的回显在推理服务器与训练服务器上类似,截图取自训练服务器。

  • 以查看Device 0和Device 1的PCIe、HCCS和RoCE信号质量为例。

    ascend-dmi --sq -t hccs,pcie,roce -d 0,1

    若返回如图1所示信息,表示工具运行正常。

    图1 设备信号质量检测示例

  • 以指定输出格式为json为例。

    ascend-dmi --signal-quality -t roce -d 0 --fmt json

    若返回如图2所示信息,表示工具运行正常。
    图2 设备信号质量检测json输出示例

    图1 设备信号质量检测示例为例,上述回显参数介绍如下表所示:

    表2 HCCS信号质量回显参数说明

    参数

    说明

    type

    指定通信端口的类型。

    D

    NPU的逻辑ID。

    L*(LANE)

    表示HCCS链路中的第几条lane,例如L0、L1分别表示第0条和第1条lane。

    S(SNR)

    表示lane的信噪比。

    H(HEH)

    表示lane的半眼高。

    表3 PCIe信号质量回显参数说明

    参数

    说明

    type

    指定通信端口的类型。

    device

    表示NPU的逻辑ID。

    M*(macro port)

    表示macro端口,例如M9、M10分别表示macro的9号、10号端口。

    L*(LANE)

    表示PCIe链路中的第几条lane,例如L0、L1分别表示第0条和第1条lane。

    B/T/L/R

    分别表示四眼图bottom、top、left和right四个位置的值。

    表4 RoCE信号质量回显参数说明

    参数

    说明

    type

    指定通信端口的类型。

    device

    表示NPU的逻辑ID

    M*(macro port)

    表示macro端口,例如M0分别表示maco端口0。

    S(SNR)

    表示lane的信噪比。

    H(HEH)

    表示lane的半眼高。

    L*(LANE)

    表示RoCE链路中的第几条lane,例如L0、L1分别表示第0条和第1条lane。