眼图测试

Ascend DMI支持眼图测试,用户使用该功能对网络进行测试,查询当前信号质量。

本功能主要用于查询信号质量的具体数据。判断当前端口信号质量是否正常,请执行signalQuality诊断。详细说明请参考SignalQuality诊断章节。

使用约束

测试项功能

查询NPU上的PCIe、HCCS和RoCE通信端口的信号质量。

支持的场景

眼图测试支持的设备及场景如表1 支持的场景和产品型号所示。(在下表中,Y表示支持,N表示不支持。)

表1 支持的场景和产品型号

场景/产品型号

Atlas A2 训练系列产品

Atlas 800I A2 推理产品

Atlas 推理系列产品

物理机

1

Y

2

宿主机+容器

1

Y

2

虚拟机

1

N

N

  1. Atlas 800T A2 训练服务器Atlas 900 A2 PoD 集群基础单元Atlas 200T A2 Box16 异构子框支持。
  2. Atlas 300I Duo 推理卡支持。

测试项参数查询

用户可任选以下指令之一查看信号质量查询命令的可用参数。

ascend-dmi --sq -h

ascend-dmi --sq --help

各参数解释如表2所示。

表2 参数说明

参数

说明

是否必填

[-sq, --sq, --signal-quality]

查询NPU上的PCIe、HCCS和RoCE通信端口的信号质量。

说明:

建议使用--sq或--signal-quality。

[-d, --device]

指定查询的Device ID。指定多个芯片时,使用英文逗号进行分隔。不指定该参数时,默认查询该设备上所有的NPU。

  • 若当前设备为Atlas 800T A2 训练服务器Atlas 900 A2 PoD 集群基础单元Atlas 800I A2 推理服务器,当type参数指定了HCCS,需要指定至少2个Device ID。
  • 若当前设备为Atlas 200T A2 Box16 异构子框,指定HCCS类型时,前8P或后8P至少指定两张device。
  • 若当前设备为Atlas 300I Duo 推理卡,当type参数指定了pcie,该参数不能指定从芯片。

[-t --type]

指定通信端口的类型。当前支持PCIe、HCCS和RoCE三种类型,指定多个通信端口的类型时,使用英文逗号进行分隔。

不指定该参数时:

  • Atlas 800T A2 训练服务器Atlas 900 A2 PoD 集群基础单元Atlas 200T A2 Box16 异构子框Atlas 800I A2 推理服务器默认查询PCIe和RoCE的信号质量。
  • Atlas 300I Duo 推理卡默认查询PCIe的信号质量。

取值说明如下:

  • pcie

    PCIe链路是NPU到CPU之间进行通信的链路,PCIe信号质量是指NPU侧连接PCIe链路的macro口四眼图的数值。

  • hccs

    HCCS链路是多张NPU之间互联的链路。HCCS信号质量是指NPU侧连接HCCS链路的macro口的信噪比和半眼高的数值。

  • roce

    RoCE链路是NPU侧对外进行集群通信的链路。RoCE信号质量是指NPU侧连接RoCE链路的macro口的信噪比和半眼高的数值。

说明:
  • Atlas 800I A2 推理服务器(32GB PCIe款)不支持查询HCCS的信号质量。
  • Atlas 800I A2 推理服务器(32GB HCCS款)Atlas 800I A2 推理服务器(64GB HCCS款)支持查询HCCS的信号质量。
  • Atlas 300I Duo 推理卡不支持查询roce信号质量。

[-fmt, --fmt, --format]

指定输出格式,可以为normal或json。若未指定则默认为normal。

[-h, --help]

查看Ascend DMI工具“眼图测试”功能的帮助信息。

注:

  • 本文档输入或输出的Device ID都是芯片逻辑ID。
  • 用户可以执行npu-smi info -m命令,在显示界面表格中的Chip Logic ID参数处获得芯片逻辑ID,NPU ID则为对应的芯片物理ID。

使用实例

使用实例中命令的回显在推理服务器与训练服务器上类似,截图取自训练服务器。