aclnnNsaCompressWithCache

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	√
[object Object]Atlas A2 训练系列产品[object Object]	√
[object Object]Atlas 800I A2 推理产品[object Object]	×
A200I A2 Box 异构组件	×
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品[object Object]	×
[object Object]Atlas 训练系列产品[object Object]	×

功能说明

算子功能：用于Native-Sparse-Attention推理阶段的KV压缩，每次推理每个batch会产生一个新的token，每当某个batch的token数量凑满一个compress_block时，该算子会将该batch的后compress_block个token压缩成一个compress_token，算法流程如下：

检查act_seq_lens是否有满足满足 $s \ge compressBlockSize$ 且 $(s - compressBlockSize) \% stride ==0$ 的序列长度；
找到满足序列长度的batchIdx，根据block_table找到该batch的后compress_block_size个token压缩；
执行压缩算法；
根据slot_mapping写回到output_cache中。

计算公式

compressIdx=(s-compressBlockSize)/stride\\ ouputCacheRef[slotMapping[i]] = input[compressIdx*stride : compressIdx*stride+compressBlockSize]*weight[:]

函数原型

每个算子分为undefined，必须先调用 “aclnnNsaCompressWithCacheGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnNsaCompressWithCache”接口执行计算。

aclnnStatus aclnnNsaCompressWithCacheGetWorkspaceSize(const aclTensor *input, const aclTensor *weight, const aclTensor *slotMapping, const aclIntArray *actSeqLenOptional,const aclTensor *blockTableOptional, char *layoutOptional, int64_t compressBlockSize, int64_t compressStride, int64_t actSeqLenType, int64_t pageBlockSize, aclTensor *outputCache, uint64_t *workspaceSize, aclOpExecutor **executor);
aclnnStatus aclnnNsaCompressWithCache(void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, aclrtStream stream)

aclnnNsaCompressWithCacheGetWorkspaceSize

参数说明：
- input（aclTensor *，计算输入）：Device侧的aclTensor, 表示待压缩张量。当传入blockTable时shape为[blockNum, pageBlockSize, N, D]，数据类型支持BFLOAT16、FLOAT16，undefined支持ND，支持undefined，不支持空Tensor。N（Head-Num）表示多头数、D（Head-Dim）表示隐藏层最小的单元尺寸。
- weight（aclTensor *，计算输入）：Device侧的aclTensor，压缩的权重。shape支持[compressBlockSize, N]，weight与input的shape满足broadcast关系，数据类型与inpu保持一致，undefined支持ND，支持undefined，不支持空Tensor。N（Head-Num）表示多头数。
- slotMapping (aclTensor *，计算输入)：Device侧的aclTensor，undefined支持ND，shape为[B,]，存储每个batch尾部压缩数据存储的位置的索引，数据类型支持INT32，不支持undefined，不支持空Tensor。B（Batch）表示输入样本批量大小。
- actSeqLenOptional（aclTensor *，计算输入）：可选参数，Host侧的aclIntArray，数据类型支持INT64，undefined支持ND，描述了每个Batch对应的S大小。在TND排布场景下需要该输入，其余场景输入nullptr。S（Seq-Length）表示输入样本序列长度。
- blockTableOptional （aclTensor *，计算输入）：可选参数，Device侧的aclTensor，数据类型支持INT32。undefined支持ND。表示PageAttention中KV存储使用的block映射表，如不使用该功能可传入nullptr。
- layoutOptional （char *，计算输入）：可选参数，Host侧的string，数据类型支持String，代表输入input的数据排布格式，支持BSH、SBH、BSND、BNSD、TND。当前仅支持TND，当传入blockTableOptional时此参数无效，否则为必选参数。
  - 说明：数据排布格式支持从多种维度解读，其中T是B和S合轴紧密排列的数据（每个batch的actSeqLen）、B（Batch）表示输入样本批量大小、S（Seq-Length）表示输入样本序列长度、H（Head-Size）表示隐藏层的大小、N（Head-Num）表示多头数、D（Head-Dim）表示隐藏层最小的单元尺寸，且满足D=H/N。
- compressBlockSize（int64_t，计算输入）：Host侧的int64_t，压缩滑窗大小。
- compressStride（int64_t，计算输入）：Host侧的int64_t，两次压缩滑窗间隔大小。
- actSeqLenType（int64_t，计算输入）：Host侧的int64_t，actSeqLenOptional有输入时生效，可取值0或1，0代表actSeqLenOptional中数值为前继batch的系列大小的cumsum结果（累积和），1代表actSeqLenOptional中数值为每个batch中序列大小，当前仅支持1。
- pageBlockSize（int64_t，计算输入）：Host侧的int64_t，指定page attention场景下page的blocksize大小。
- outputCache（aclTensor *，计算输入输出）：Device侧的aclTensor，undefined支持ND，数据类型与input保持一致，不支持undefined，不支持空Tensor。
- workspaceSize（uint64_t *，出参）：返回用户需要在Device侧申请的workspace大小。
- executor（aclOpExecutor **，出参）：返回op执行器，包含了算子计算流程。
返回值

返回aclnnStatus状态码，具体参见undefined。

[object Object]

aclnnNsaCompressWithCache

参数说明：
- workspace（void*，入参）：在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t，入参）：在Device侧申请的workspace大小，由第一段接口aclnnNsaCompressWithCacheGetWorkspaceSize获取。
- executor（aclOpExecutor*，入参）：op执行器，包含了算子计算流程。
- stream（aclrtStream，入参）：指定执行任务的Stream。
返回值：

返回aclnnStatus状态码，具体参见undefined。

约束说明

input和weight满足broadcast关系，input的第三维大小与weight的第二维大小相等
compressBlockSize、compressStride 必须是16的整数倍，且compressBlockSize>=compressStride，compressBlockSize <= 64,
actSeqLenType目前仅支持取值1
layoutOptional取值可以是BSH、SBH、BSND、BNSD、TND，但是不会生效
pageBlockSize 只能是64或者128
headDim是16的整数倍，且headDim <= 256
不支持input/weight/outputCache为空输入
slotMapping的值无重复，否则会导致计算结果不稳定
blockTableOptional的值不超过blockNum，否则会发生越界
actSeqLenOptional的值不应该超过序列最大长度
headNum <= 64，且headNum>50时headNum%2=0,

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考undefined。

[object Object]