测试项功能
通过对NPU芯片的RoCE网口收发PRBS码流,诊断硬件链路的通信信号质量。
prbs码流诊断支持以下2种打流方式:
- CDR环回打流:单个Device同时发送和接收,可用于检查从NPU的物理serdes端口到CDR单元的信号质量。在打流前,请确保光模块在位,然后再进行CDR环回配置。详细说明请参考:配置CDR环回。
- 光模块外接光纤回路器(自环器)打流:单个Device同时发送和接收,可用于检查NPU的物理serdes端口到光模块的信号质量,不需要设置环回。
表1 诊断项说明诊断项名称
|
使用Atlas A2 训练系列产品完成一轮诊断的参考耗时
|
使用Atlas 900 A3 SuperPoD 集群算力系统完成一轮诊断的参考耗时
|
是否影响NPU训练或推理
|
使用场景
|
prbs码流诊断
|
3s~10s
|
2min~5min
|
是
|
定位RoCE网口信号质量问题。
|
支持的场景
prbs码流诊断支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
表2 支持的场景和产品型号场景/产品型号
|
Atlas 800T A2 训练服务器
|
Atlas 200T A2 Box16 异构子框
|
Atlas 800I A2 推理服务器
|
Atlas A3 训练系列产品
|
物理机
|
Y
|
Y
|
Y
|
Y
|
宿主机+容器
|
Y
|
Y
|
Y
|
Y
|
虚拟机
|
Y
|
Y
|
Y
|
N
|
使用约束
- 当前仅支持root用户使用prbs码流诊断。
- prbs码流诊断会影响NPU训练或推理作业,为保证返回检测结果的正确性和准确性,请单独执行。
- 执行prbs打流流程会自动关闭NPU和CDR自适应,多次执行打流命令时会反复开关自适应,当自适应开关动作未完成时,偶现误码数为67092480为正常现象。
- 若使用CDR环回打流,请在完成打流后解除CDR环回,详情请参见《Atlas A2 中心推理和训练硬件 24.1.RC3 HCCN Tool 接口参考》的“配置功能>配置和查询CDR相关信息”章节。
测试项参数查询
各参数解释如表3所示。
表3 参数说明参数
|
说明
|
是否必填
|
[-dg, --dg, --diagnosis]
|
使用该参数进行整卡的故障诊断测试。
|
是
|
[-i, --items]
|
指定具体的诊断检查项: - prbs :码流诊断。
- 不传入此参数,则默认执行除aicore和prbs外其他检查项的诊断。
|
是
|
[-d, --device]
|
指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的逻辑ID。
- 可指定一个或多个Device ID,多个时各项之间使用“,”分隔。
- 若不填写Device ID则默认返回所有Device的诊断结果。
|
否
|
[-td, --td, --trans-duration]
|
指定RoCE端口prbs码流诊断的时长。
- 当item参数指定为prbs时,此参数才会生效。
- 参数取值范围为[3,10],单位为秒。
|
否
|
[-r, --result]
|
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
- 若用户指定结果保存路径,则在指定路径创建ascend_check文件夹,root用户指定的路径,将创建在根目录下,非root用户则创建在其$HOME下;若不指定路径,则保存在默认路径下,root用户:“/var/log/ascend_check”,非root用户:“$HOME/var/log/ascend_check”。
- 基于安全考虑,为防止结果保存目录权限被修改,用户可将结果保存目录ascend_check的权限设置为700。
- 当[-fmt, --fmt, --format]后检查项指定json格式输出时,会进行故障诊断结果保存,结果保存在“ascend_check/environment_check_before.txt”文件中,不指定json格式输出时,不保存故障诊断结果。
|
否
|
[-fmt, --fmt, --format]
|
指定输出格式,可以为normal或json。若未指定则默认为normal。
|
否
|
注:
- 本文档输入或输出的Device ID都是芯片逻辑ID。
- 用户可以执行npu-smi info -m命令,在显示界面表格中的Chip Logic ID参数处获得芯片逻辑ID,NPU ID则为对应的芯片物理ID。
- ascend-dmi --dg后使用-i,-d等多个二级参数时,可任意指定这些参数的排列顺序,不影响命令结果输出。
|
使用实例
ascend-dmi -dg -i prbs -d 0,1 --td 3
故障检查项说明
表4 故障检查项说明回显状态
|
含义
|
IMPORTANT_WARN
|
重要警告
RoCE端口存在误码,且误码率大于10-5,请联系华为工程师处理。
|
SKIP
|
- 当前产品形态不支持该项检测。
- 当前使用的用户为非root用户。
|
PASS
|
码流检测通过。RoCE端口信号质量正常(误码率小于10-5)。
|
FAIL
|
- 码流检测失败。
- 诊断结果为满误码(误码数为67092480)。
|