AI CPU算子接口执行超时报错
现象描述
算子执行过程中,如果遇到下面任意一种报错,均属于算子执行超时报错。
- 现象1
- 当Runtime执行报错E39999,Host侧plog日志中Runtime打印了PrintAicpuErrorInfo错误信息,且提示“ErrCode=507018, desc=[aicpu exception]”.
- 进一步查看AI CPU的Device日志发现提示HandleTaskTimeout错误信息。
该现象与AI CPU算子Kernel执行报错中“可能原因 > 样例3”日志报错信息一样。
- 现象2
当Runtime执行报错,在plog日志中Runtime打印了PrintAicpuErrorInfo的错误信息,且提示“ErrCode=507017, desc=[aicpu timeout]”。
plog日志默认在$HOME/ascend/log/[run|debug]/plog路径下,日志格式为plog-pid_yyymmddhhmmss.log。
1
[ERROR] RUNTIME(16243,msame):2022-09-22-11:27:01.794.510 [api_c.cc:661]16243 rtStreamSynchronize:[EXEC][DEFAULT]ErrCode=507017, desc=[aicpu timeout], InnerCode=0x715002a
可能原因
- 算子的输入/输出Shape太大导致算子执行缓慢。
- 硬件性能较差,不足以支撑算子大量的复杂计算。
处理步骤
- 该类型的错误,可尝试使用aclrtSetOpExecuteTimeOut接口,适当调大算子执行的超时时间。
接口原型定义如下:
1
aclError aclrtSetOpExecuteTimeOut(uint32_t timeout) // timeout单位为秒
- 若步骤1仍未能解决问题,可联系技术支持定位排查。您可以获取日志后单击Link联系技术支持。
父主题: 算子执行问题