下载
中文
注册

AI CPU算子接口执行超时报错

现象描述

算子执行过程中,如果遇到下面任意一种报错,均属于算子执行超时报错。

  • 现象1
    1. 当Runtime执行报错E39999,Host侧plog日志中Runtime打印了PrintAicpuErrorInfo错误信息,且提示“ErrCode=507018, desc=[aicpu exception]”.
    2. 进一步查看AI CPU的Device日志发现提示HandleTaskTimeout错误信息。

    该现象与AI CPU算子Kernel执行报错中“可能原因 > 样例3”日志报错信息一样。

  • 现象2

    当Runtime执行报错,在plog日志中Runtime打印了PrintAicpuErrorInfo的错误信息,且提示“ErrCode=507017, desc=[aicpu timeout]”。

    plog日志默认在$HOME/ascend/log/[run|debug]/plog路径下,日志格式为plog-pid_yyymmddhhmmss.log。

    1
    [ERROR] RUNTIME(16243,msame):2022-09-22-11:27:01.794.510 [api_c.cc:661]16243 rtStreamSynchronize:[EXEC][DEFAULT]ErrCode=507017, desc=[aicpu timeout], InnerCode=0x715002a
    

可能原因

  • 算子的输入/输出Shape太大导致算子执行缓慢。
  • 硬件性能较差,不足以支撑算子大量的复杂计算。

处理步骤

  1. 该类型的错误,可尝试使用aclrtSetOpExecuteTimeOut接口,适当调大算子执行的超时时间。

    接口原型定义如下:

    1
    aclError aclrtSetOpExecuteTimeOut(uint32_t timeout)      // timeout单位为秒
    
  2. 步骤1仍未能解决问题,可联系技术支持定位排查。您可以获取日志后单击Link联系技术支持。