获取报错信息后可参考以下流程进行自助式问题分析,以便开发者快速定位并解决故障。
EZ3002: 2024-11-05-22:31:29.035.909 Optype [%s] of Ops kernel [%s] is unsupported. Reason: %s.
“EZ3002”即为CANN软件错误码,用户可根据对应错误码信息进行故障分析,如仍不明确问题来源,可进一步查看其他回显信息。
屏幕中显示先调用torch_npu.npu.synchronize(),继而调用torch_npu._C._npu_synchronize()失败。异常信息显示报错时正在运行的算子是ReduceAny,可据此找到对应异常组件,如果没有明确错误指向,需继续查看后续调用。
ERR00100 PTA call acl api failed
“ERR00100”即为torch_npu错误码,如果有明确错误指向,可根据具体故障原因清除故障。
上述屏显中的报错组件为ASCENDCL,报错信息为算子DynamicGRUV2,可据此找到对应异常组件,如果仍然不能根据报错信息明确故障组件,可联系华为技术支持获取帮助。
如果回显信息出现原生框架报错,请根据报错信息指向进行解决,如果涉及昇腾相关,可查看除此之外的昇腾首报错信息。