KVCacheOperation

功能

KVCache处理。

定义

struct KVCacheParam {};

输入

参数

维度

数据类型

格式

new_kv

[ntokens, hiddenSize]

float16

ND/NZ

layerId

[1]

int32

ND

past

[layer, batch, maxSeqLen, hiddenSize]

float16

ND/NZ

tokenOffset

[batch]

int32

ND

seqlen

[batch]

int32

ND

输出

参数

维度

数据类型

格式

present

[layer, batch, maxSeqLen, hiddenSize]

float16

ND/NZ

输出present与输入past指向同一地址,即进行原地修改。