单算子调用流程

本节介绍调用单算子的两种方式、以及这两种方式下的接口调用流程。

开发应用时，如果涉及执行单个算子，请先参见AscendCL接口调用流程了解整体流程，再查看本节中的流程说明。

对于系统不支持的算子，用户需先参见《Ascend C算子开发指南》完成自定义算子开发。

对于TIK自定义动态Shape算子，需要先注册算子选择器，请参见执行动态Shape算子示例代码（注册算子选择器）。

单算子调用方式：单算子模型执行、单算子API执行、Kernel加载与执行

单算子API执行：基于C语言的API执行算子，无需提供IR（Intermediate Representation）定义，直接调用单算子API执行下的算子接口即可。该方式下接口形式定义为“两段式接口”，形如：

        
             aclnnStatus aclxxXxxGetWorkspaceSize(const aclTensor *src, ..., aclTensor *out, ..., uint64_t *workspaceSize, aclOpExecutor **executor);
aclnnStatus aclxxXxx(void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, aclrtStream stream);

必须先调用第一段接口aclxxXxxGetWorkspaceSize，用于计算本次API调用过程中需要多少workspace内存，获取到本次计算所需的workspaceSize后，按照workspaceSize申请NPU内存，然后调用第二段接口aclxxXxx执行计算。其中“aclxx”表示算子接口前缀，如aclnn；而“Xxx”表示对应的算子类型，如Add算子。

当前支持以单算子API执行方式调用的算子包括如下几类：

NN算子：Neural Network算子，CANN内置的基础算子，接口前缀为aclnnXxx，主要覆盖TensorFlow、Pytorch、MindSpore、ONNX等框架中深度学习算法相关的计算类型，例如常见的Softmax、MatMul、Convolution等。
融合算子：CANN内置的融合算子，接口前缀为aclnnXxx，由多个独立的基础“小算子”（如向量Vector、矩阵Cube等）融合成“大算子”，多个小算子功能与大算子功能等价，而大算子在性能或内存收益优于小算子。例如常见的Flash Attention、通算融合算子（简称MC2算子）等。
DVPP算子：Digital Vision Pre-Processing算子，接口前缀为acldvppXxx，提供高性能视频/图片编解码、图像裁剪缩放等预处理API。

调用NN和融合算子接口时，会直接调用算子二进制包（Ascend-cann-kernels）中已经编译好的算子，无需再编译算子。算子二进制包的安装请参见《CANN 软件安装指南》。
调用DVPP算子接口时，无需再编译算子。

单算子模型执行：基于图IR执行算子，先编译算子（例如，使用ATC工具将Ascend IR定义的单算子描述文件编译成算子om模型文件），再调用AscendCL接口加载算子模型（例如aclopSetModelDir接口），最后调用AscendCL接口执行算子（例如aclopExecuteV2接口）。
Kernel加载与执行：基于算子Kernel执行算子，先调用aclrtBinaryLoadFromFile加载算子二进制文件（*.o文件），再调用aclrtLaunchKernelWithConfig接口Launch Kernel，最后调用aclrtBinaryUnLoad接口卸载算子二进制。

单算子API执行接口调用流程

图1 单算子API执行接口调用流程

关键接口的说明如下：

AscendCL初始化。

调用aclInit接口实现初始化AscendCL。
运行管理资源申请。

依次申请运行管理资源，具体流程请参见运行管理资源申请与释放。
数据内存申请和传输。
1. 调用aclrtMalloc接口申请Device上的内存，存放待执行算子的输入、输出数据。
2. 调用aclCreateTensor、aclCreateIntArray等接口构造算子的输入、输出数据，如aclTensor、aclIntArray等，详细接口请参见单算子API执行。
如果需要将Host上数据传输到Device，则需要调用aclrtMemcpy接口（同步接口）或aclrtMemcpyAsync接口（异步接口）通过内存复制的方式实现数据传输。
计算workspace并执行算子。
1. 调用aclxxXxxGetWorkspaceSize接口获取算子入参，并计算该算子执行时需要的workspace大小。
2. 调用aclrtMalloc接口，根据workspace大小申请Device侧内存。
3. 调用aclxxXxx接口执行计算并得到结果。
单算子API执行的接口一般定义为“两段式接口”，即aclxxXxxGetWorkspaceSize和aclxxXxx，详细的接口功能和使用方法请参见单算子API执行章节。
调用aclrtSynchronizeStream接口阻塞应用运行，直到指定Stream中的所有任务都完成。
调用aclrtFree接口释放内存。
如果需要将Device上的算子执行结果数据传输到Host，则需要调用aclrtMemcpy接口（同步接口）或aclrtMemcpyAsync接口（异步接口）通过内存复制的方式实现数据传输，然后再释放内存。
运行管理资源释放。
1. 调用aclDestroyTensor、aclDestroyIntArray等接口释放算子的输入、输出，相关接口请参见单算子API执行。
2. 所有数据释放后，需要依次释放运行管理资源，具体流程请参见运行管理资源申请与释放。
AscendCL去初始化。
调用aclFinalize接口实现AscendCL去初始化。

单算子模型执行接口调用流程

图2 单算子模型执行接口调用流程

关键接口的说明如下：

编译算子。
根据算子编译的方式，可分为以下两种：
- 编译算子后，算子相关数据保存在*.om模型文件中
   该种方式下编译算子，需使用ATC工具，详细描述请参见《ATC离线模型编译工具用户指南》，将单算子定义文件（*.json）编译成适配昇腾AI处理器的离线模型（*.om文件）。
  
  编译算子后，依次进行2、3、4、5、6、7。
- 编译算子后，算子相关数据保存在内存中
   该种方式下编译算子，需调用AscendCL提供的接口，根据不同场景调用不同的接口：
  - 对于同一个算子，编译一次，多次执行的场景，建议调用aclopCompile接口编译算子。编译算子后，依次进行3、4、5、6、7。
  - 对于编译算子、执行算子次数相同的场景，建议先执行3，再调用aclopCompileAndExecute接口编译算子。编译算子后，再依次进行6、7。
加载算子模型文件。
支持以下2种方式中的一种加载单算子模型文件：
- 调用aclopSetModelDir接口，设置加载模型文件的目录，目录下存放单算子模型文件（*.om文件）。
- 调用aclopLoad接口，从内存中加载单算子模型数据，由用户管理内存。单算子模型数据是指“单算子编译成*.om文件后，再将om文件读取到内存中”的数据。
调用aclrtMalloc接口申请Device上的内存，存放执行算子的输入、输出数据。
如果需要将Host上数据传输到Device，则需要调用aclrtMemcpy接口（同步接口）或aclrtMemcpyAsync接口（异步接口）通过内存复制的方式实现数据传输。
动态Shape场景，如果无法明确算子的输出Shape时，在执行算子前，还需推导或预估算子的输出Shape。
需用户调用aclopInferShape接口、aclGetTensorDescNumDims接口、aclGetTensorDescDimV2接口、aclGetTensorDescDimRange等接口，推导或预估算子的输出Shape，作为算子执行接口aclopExecuteV2的输入。
执行算子。
- 对于被封装成AscendCL接口的算子（参见CBLAS接口），包括GEMM算子、Cast算子，目前支持以下两种执行方式：
  - 不以handle方式执行算子，接口名称中不包含“Handle”关键字，例如，调用aclblasGemmEx接口（封装GEMM算子）、aclopCast接口（封装Cast算子）等执行算子。
  - 以handle方式执行算子，接口名称中包含“Handle”关键字，例如，调用aclblasCreateHandleForGemmEx接口、aclopCreateHandleForCast接口等创建handle后，还需要调用aclopExecWithHandle接口执行算子。
- 对于未被封装成AscendCL接口的算子，目前支持以下两种执行方式：
  - 不以handle方式执行算子，调用aclopExecuteV2接口执行算子。
  - 以handle方式执行算子，调用aclopCreateHandle接口创建handle，再调用aclopExecWithHandle接口执行算子。
不以handle方式执行算子时，每次执行算子时，系统内部都会根据算子描述信息匹配内存中的模型。

以handle方式执行算子时，系统内部将算子描述信息匹配到内存中的模型，并缓存在Handle中，每次执行算子时，无需重复匹配算子与模型，因此在涉及多次执行同一个算子时，效率更高，但该方式不支持动态Shape算子，且Handle使用结束后，需调用aclopDestroyHandle接口释放。
调用aclrtSynchronizeStream接口阻塞应用运行，直到指定Stream中的所有任务都完成。
调用aclrtFree接口释放内存。
如果需要将Device上的算子执行结果数据传输到Host，则需要调用aclrtMemcpy接口（同步接口）或aclrtMemcpyAsync接口（异步接口）通过内存复制的方式实现数据传输，然后再释放内存。

Kernel加载与执行接口调用流程

关键流程说明如下：

调用aclInit接口初始化AscendCL。
详细说明请参见AscendCL初始化与去初始化。
申请运行管理资源，包括调用aclrtSetDevice接口指定用于运算的Device、调用aclrtCreateStream接口创建Stream。
详细说明请参见运行管理资源申请与释放。
调用aclrtBinaryLoadFromFile接口加载算子二进制文件。
调用aclrtBinaryGetFunctionByEntry或aclrtBinaryGetFunction接口获取核函数句柄。
根据核函数句柄操作其参数列表，操作包括：
1. 初始化参数列表
  当前支持由系统管理内存（调用aclrtKernelArgsInit接口）、由用户管理内存（调用aclrtKernelArgsInitByUserMem接口）两种方式。
2. 追加参数、更新参数值
  核函数参数列表中包含不同类型的参数，例如指针类型参数、placeHolder、uint8_t类型参数等，其中：
  - 指针类型参数：其值为Device内存地址。一般来说，算子的输入、输出是该种类型的参数，用户需提前调用Device内存申请接口（例如aclrtMalloc接口）申请内存，并自行拷贝数据至Device侧。
  - placeHolder：也是指针类型参数，但区别在于，用户无需手动将参数数据复制到Device，这项操作由Runtime完成。在追加参数时Runtime并不会填写真实的Device地址，而是在Launch Kernel时才会刷新为真实的Device地址，所以称之为placeHolder。对算子的非输入、输出参数，可以使用placeHolder方式，将小块数据（建议小于2KB）的Host->Device拷贝合并到Launch Kernel时的一次拷贝操作中去，减少拷贝次数，提升性能。
  不同类型参数，可调用不同的参数追加接口：
  - 对于placeHolder参数，由于关联的内存必须放在所有参数之后，所以在追加参数时，先调用aclrtKernelArgsAppendPlaceHolder接口占位，等所有参数都追加之后，可调用aclrtKernelArgsGetPlaceHolderBuffer接口获取对应占位符指向的内存地址。用户可根据获取的内存地址，管理该内存中的数据。
  - 对于非placeHolder参数（例如指针类型参数、uint8_t类型参数等），调用aclrtKernelArgsAppend接口将用户设置的参数值追加拷贝到argsHandle指向的参数数据区域。如果要更新参数值，可调用aclrtKernelArgsParaUpdate接口进行更新。
  注意，核函数参数列表中，实际可能存在多个参数，并且不同类型的参数可能交错出现，因此需要按照参数列表中的参数顺序从左到右进行追加，追加的参数最多支持128个。
3. 结束参数列表的追加、参数值的更新
  在所有参数追加之后，调用aclrtKernelArgsFinalize接口以标识参数组装完毕。但aclrtKernelArgsFinalize接口之后，也支持继续更新参数值，更新之后，还要再调用一次aclrtKernelArgsFinalize接口。
调用aclrtLaunchKernelWithConfig接口Launch Kernel，启动对应算子的计算任务。
调用接口aclrtBinaryUnLoad卸载算子二进制文件。
释放运行管理资源，包括调用aclrtDestroyStream接口释放Stream、调用aclrtResetDevice接口释放Device上的资源。
详细说明请参见运行管理资源申请与释放。
调用aclFinalize接口去初始化AscendCL。
详细说明请参见AscendCL初始化与去初始化。

父主题： 单算子调用