昇腾社区首页
中文
注册
开发者
下载

眼图诊断

测试项功能

对信号质量进行诊断,并输出诊断结果。

表1 诊断项说明

诊断项名称

参考耗时

是否影响NPU训练或推理

使用场景

signalQuality

10s~2min

训练或推理任务时,设备出现PCIe、HCCS或RoCE链路故障。

测试项特定参数查询

各参数解释如表2所示,表格内仅展示测试项特定参数,其余公共参数请参见公共参数说明

表2 参数说明

参数

说明

是否必填

[-i, --items]

指定具体的诊断检查项:
  • signalQuality:对PCIe、HCCS和RoCE的信号质量进行诊断。

[-lt, --link-type]

指定眼图诊断的链路类型。取值说明如下:

  • hccs:指定HCCS链路眼图诊断,支持Atlas 300I Duo 推理卡Atlas A2 训练系列产品Atlas 800I A2 推理服务器A200I A2 Box 异构组件Atlas A3 推理系列产品Atlas A3 训练系列产品;不支持Atlas 800I A2 推理服务器(32GB PCIe款)
  • pcie:指定PCIe链路眼图诊断,支持Atlas 300I Duo 推理卡Atlas A2 训练系列产品Atlas 800I A2 推理服务器A200I A2 Box 异构组件A200T A3 Box8 超节点服务器。在使用Atlas 300I Duo 推理卡只指定从芯片时,将不会诊断PCIe链路的信号质量。
  • roce:指定RoCE链路眼图诊断,支持Atlas A2 训练系列产品Atlas 800I A2 推理服务器A200I A2 Box 异构组件Atlas A3 推理系列产品Atlas A3 训练系列产品

使用实例

ascend-dmi -dg -i signalQuality --link-type hccs,pcie

1
2
3
4
5
6
7
8
9
[***@***]# ascend-dmi -dg -i signalQuality --link-type hccs,pcie
Summary:
    Arch: aarch64
    Mode: ******
    Time: 20250529-19:24:32
 
Hardware:
    signalQuality:
        PASS

故障检查项说明

表3 故障检查项说明

回显状态

含义

PASS

检测通过,信号质量正常。

SKIP

  • 当前设备不支持眼图诊断。
  • 使用link-type参数时指定了当前设备不支持的链路类型。

IMPORTANT_WARN

重要警告。

PCIe、HCCS和RoCE(其中的一项或多项)信号质量有异常,请联系华为工程师处理。

FAIL

眼图检测执行失败。

说明:

SignalQuality诊断中,若SNR和HEH的数值为0,说明测试的RoCE链路或HCCS链路中指定的Device之间未建链。