眼图测试
Ascend DMI支持眼图测试,用户使用该功能对网络进行测试,查询当前信号质量。
本功能主要用于查询信号质量的具体数据。判断当前端口信号质量是否正常,请执行signalQuality诊断。详细说明请参考SignalQuality诊断章节。
使用约束
- 该功能目前只支持Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas A3 训练系列产品、Atlas 200T A2 Box16 异构子框、Atlas 800I A2 推理服务器和Atlas 300I Duo 推理卡。
- Atlas 300I Duo 推理卡服务器场景下,主芯片仅支持PCIe和HCCS,从芯片仅支持HCCS。
- Atlas 900 A3 SuperPoD 超节点、Atlas 9000 A3 SuperPoD 集群算力系统场景下,仅支持查询HCCS和RoCE的信号质量。
- 在同一NPU内,若已配置CDR回环,请在解除回环后再执行眼图测试。详细说明请参见《Atlas A2 中心推理和训练硬件 25.0.RC1 HCCN Tool 接口参考》的“配置功能>配置和查询CDR相关信息”章节。
测试项功能
查询NPU上的PCIe、HCCS和RoCE通信端口的信号质量。
支持的场景
眼图测试支持的设备及场景如表1 支持的场景和产品型号所示。(在下表中,Y表示支持,N表示不支持。)
测试项参数查询
用户可任选以下指令之一查看信号质量查询命令的可用参数。
ascend-dmi --sq -h
ascend-dmi --sq --help
各参数解释如表2所示。
使用实例
使用实例中命令的回显在推理服务器与训练服务器上类似,截图取自训练服务器。
- 以查看Device 0和Device 1的PCIe、HCCS和RoCE信号质量为例。
ascend-dmi --sq -t hccs,pcie,roce -d 0,1
若返回如图1所示信息,表示工具运行正常。
- 以指定输出格式为json为例。
ascend-dmi --signal-quality -t roce -d 0 --fmt json
若返回如图2所示信息,表示工具运行正常。以图1 设备信号质量检测示例为例,上述回显参数介绍如下表所示:
表3 HCCS信号质量回显参数说明 参数
说明
type
指定通信端口的类型。
device
NPU的逻辑ID。
M*(macro port)
表示macro端口,例如M0、M1分别表示macro的0号、1号端口。
L*(LANE)
表示HCCS链路中的第几条lane,例如L0、L1分别表示第0条和第1条lane。
S(SNR)
表示lane的信噪比。
H(HEH)
表示lane的半眼高。
B/T/L/R
分别表示四眼图bottom、top、left和right四个位置的值。
- HCCS信号质量中,此参数仅在Atlas 300I Duo 推理卡时回显展示。
数据说明:
- 在HCCS信号质量回显中,当SNR≥400000且HEH≥350,即表示当前LANE信号质量正常。
- 若SNR和HEH数值不在以上范围内,即表示HCCS信号质量异常。请检查macro连接口是否发生松动,链路是否有脏污。
- 若SNR和HEH的数值为0,说明测试的HCCS链路中指定的Device之间未建链。
- Atlas 300I Duo 推理卡HCCS信号质量回显时,只会展示type、device、M*(macro port)、L*(LANE)、B/T/L/R回显参数,且B/T/L/R中B(bottom)≤-30、T(top)≥30、L(left)≤-5、R(right)≥5。
表4 PCIe信号质量回显参数说明 参数
说明
type
指定通信端口的类型。
device
表示NPU的逻辑ID。
M*(macro port)
表示macro端口,例如M9、M10分别表示macro的9号、10号端口。
L*(LANE)
表示PCIe链路中的第几条lane,例如L0、L1分别表示第0条和第1条lane。
B/T/L/R
分别表示四眼图bottom、top、left和right四个位置的值。
数据说明:
- 在PCIe信号质量回显中,当四眼图B(bottom)≤-17、T(top)≥17、L(left)≤-3、R(right)≥3(须同时满足),即表示当前LANE信号质量正常。
- 若四眼图数值不在以上范围内,即表示PCIe信号质量异常。请检查macro连接口是否发生松动,链路是否有脏污。
- 在Atlas 300I Duo 推理卡场景下,B/T/L/R的范围为B(bottom)≤-30、T(top)≥30、L(left)≤-5、R(right)≥5。
表5 RoCE信号质量回显参数说明 参数
说明
type
指定通信端口的类型。
device
表示NPU的逻辑ID。
M*(macro port)
表示macro端口,例如M0分别表示macro端口0。
S(SNR)
表示lane的信噪比。
H(HEH)
表示lane的半眼高。
L*(LANE)
表示RoCE链路中的第几条lane,例如L0、L1分别表示第0条和第1条lane。
数据说明:
- 在RoCE信号质量回显中,当SNR≥400000且HEH≥350,即表示当前LANE信号质量正常。
- 若SNR和HEH数值不在以上范围内,即表示RoCE信号质量异常。请检查macro连接口是否发生松动,链路是否有脏污。
- 若SNR和HEH的数值为0,说明测试的RoCE链路中指定的Device之间未建链。
图3 SNR和HEH数值为0时的回显示例[root@*****~]# ascend-dmi --sq -t roce type: roce Prompt message: M*: macro port, L*: lane, S: SNR, H: HEH ---------------------------------------------------------------- device signal-to-noise ratio ---------------------------------------------------------------- 0 M0: L0: S:0 H:0 L1: S:0 H:0 L2: S:0 H:0 L3: S:0 H:0 ---------------------------------------------------------------- 1 M0: L0: S:0 H:0 L1: S:0 H:0 L2: S:0 H:0 L3: S:0 H:0 ---------------------------------------------------------------- 2 M0: L0: S:0 H:0 L1: S:0 H:0 L2: S:0 H:0 L3: S:0 H:0 ---------------------------------------------------------------- 3 M0: L0: S:0 H:0 L1: S:0 H:0 L2: S:0 H:0 L3: S:0 H:0 ---------------------------------------------------------------- 4 M0: L0: S:0 H:0 L1: S:0 H:0 L2: S:0 H:0 L3: S:0 H:0 ---------------------------------------------------------------- 5 M0: L0: S:0 H:0 L1: S:0 H:0 L2: S:0 H:0 L3: S:0 H:0 ---------------------------------------------------------------- 6 M0: L0: S:0 H:0 L1: S:0 H:0 L2: S:0 H:0 L3: S:0 H:0 ---------------------------------------------------------------- 7 M0: L0: S:0 H:0 L1: S:0 H:0 L2: S:0 H:0 L3: S:0 H:0