对信号质量进行诊断,并输出诊断结果。
诊断项名称 |
使用Atlas A2 训练系列产品完成一轮诊断的参考耗时 |
使用Atlas 900 A3 SuperPoD 集群算力系统完成一轮诊断的参考耗时 |
是否影响NPU训练或推理 |
使用场景 |
---|---|---|---|---|
signalQuality |
16s~30s |
15min~20min |
否 |
训练或推理任务时,设备出现PCIe、HCCS或RoCE链路出现故障。 |
signalQuality诊断支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
各参数解释如表3所示。
参数 |
说明 |
是否必填 |
---|---|---|
[-dg, --dg, --diagnosis] |
使用该参数进行整卡的故障诊断测试。 |
是 |
[-i, --items] |
指定具体的诊断检查项:
|
否 |
[-d, --device] |
指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的逻辑ID。 |
否 |
[-r, --result] |
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。若未指定则默认为normal。 |
否 |
说明:
|
ascend-dmi -dg -i aiflops,signalQuality,cann -q
回显状态 |
含义 |
---|---|
PASS |
检测通过,NPU上PCIe、HCCS和RoCE通信端口的信号质量正常。 |
SKIP |
当前产品形态不支持该项检测。 |
IMPORTANT_WARN |
重要警告。 PCIe、HCCS和RoCE(其中的一项或多项)信号质量有异常,请联系华为工程师处理。 |
FAIL |
眼图检测执行失败。 |
说明: 在signalQuality诊断中,若SNR和HEH的数值为0,说明测试的RoCE链路或HCCS链路中指定的Device之间未建链。 |