昇腾社区首页
中文
注册

SignalQuality诊断

测试项功能

对信号质量进行诊断,并输出诊断结果。

表1 诊断项说明

诊断项名称

使用Atlas A2 训练系列产品完成一轮诊断的参考耗时

使用Atlas 900 A3 SuperPoD 超节点完成一轮诊断的参考耗时

是否影响NPU训练或推理

使用场景

signalQuality

16s~30s

15min~20min

训练或推理任务时,设备出现PCIe、HCCS或RoCE链路出现故障。

支持的场景

signalQuality诊断支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)

表2 支持的场景和产品型号

场景/产品型号

Atlas A2 训练系列产品

Atlas 800I A2 推理产品/A200I A2 Box 异构组件

Atlas 推理系列产品

Atlas A3 训练系列产品

物理机

1

Y

2

Y

宿主机+容器

1

Y

2

3

虚拟机

1

N

N

4

  1. 仅支持Atlas 800T A2 训练服务器Atlas 900 A2 PoD 集群基础单元Atlas 200T A2 Box16 异构子框支持。
  2. Atlas 300I Duo 推理卡支持。
  3. 仅支持root用户在容器场景下进行signalQuality诊断。
  4. A200T A3 Box8 超节点服务器支持。

测试项参数查询

各参数解释如表3所示。

表3 参数说明

参数

说明

是否必填

[-dg, --dg, --diagnosis]

使用该参数进行整卡的故障诊断测试。

[-i, --items]

指定具体的诊断检查项:
  • signalQuality:对PCIe、HCCS和RoCE的信号质量进行诊断。在Atlas 300I Duo 推理卡场景下,只对HCCS和主芯片的PCIe信号质量进行诊断。Atlas 900 A3 SuperPoD 超节点Atlas 9000 A3 SuperPoD 集群算力系统场景下,仅支持进行HCCS和RoCE的信号质量诊断。
  • 可指定driver、cann、device、network、bandwidth、aiflops、hbm、signalQuality中的一项或多项,多项时各项之间使用“,”分隔。
  • 不传入此参数,则默认执行除aicore、prbs、edp、tdp、aicpu、nic外其他检查项的诊断。

[-d, --device]

指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的逻辑ID。

  • 可指定一个或多个Device ID,多个时各项之间使用“,”分隔。
  • 若不填写Device ID则默认返回所有Device的诊断结果。
  • 当[-i, --items]后检查项包括signalQuality,使用的产品为Atlas 800T A2 训练服务器Atlas 900 A2 PoD 集群基础单元Atlas 800I A2 推理服务器(32GB HCCS款)Atlas 800I A2 推理服务器(64GB HCCS款)A200I A2 Box 异构组件时,若用户只指定一个Device ID则不会诊断HCCS的信号质量。

    Atlas 200T A2 Box16 异构子框进行诊断时,若需诊断HCCS,前8P或后8P至少指定两张device。

[-r, --result]

指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。

  • 若用户指定结果保存路径,则在指定路径创建ascend_check文件夹,root用户指定的路径,将创建在根目录下,非root用户则创建在其$HOME下;若不指定路径,则保存在默认路径下,root用户:“/var/log/ascend_check”,非root用户:“$HOME/var/log/ascend_check”。
  • 基于安全考虑,为防止结果保存目录权限被修改,用户可将结果保存目录ascend_check的权限设置为700。
  • 当[-fmt, --fmt, --format]后检查项指定json格式输出时,会进行故障诊断结果保存,结果保存在“ascend_check/environment_check_before.txt”文件中,不指定json格式输出时,不保存故障诊断结果。

[-fmt, --fmt, --format]

指定输出格式,可以为normal或json。若未指定则默认为normal。

当诊断项未通过时,返回的json回显示例请参见诊断项未通过时返回的json示例-SignalQuality

说明:

  • 本文档输入或输出的Device ID都是芯片逻辑ID。
  • 用户可以执行npu-smi info -m命令,在显示界面表格中的Chip Logic ID参数处获得芯片逻辑ID,NPU ID则为对应的芯片物理ID。
  • ascend-dmi --dg后使用-i,-d等多个二级参数时,可任意指定这些参数的排列顺序,不影响命令结果输出。

使用实例

ascend-dmi -dg -i aiflops,signalQuality,cann -q

故障检查项说明

表4 故障检查项说明

回显状态

含义

PASS

检测通过,NPU上PCIe、HCCS和RoCE通信端口的信号质量正常。

SKIP

当前设备不支持眼图诊断。

IMPORTANT_WARN

重要警告。

PCIe、HCCS和RoCE(其中的一项或多项)信号质量有异常,请联系华为工程师处理。

FAIL

眼图检测执行失败。

说明:

在signalQuality诊断中,若SNR和HEH的数值为0,说明测试的RoCE链路或HCCS链路中指定的Device之间未建链。