KVCache处理。
struct KVCacheParam {};
参数 |
维度 |
数据类型 |
格式 |
---|---|---|---|
new_kv |
[ntokens, hiddenSize] |
float16 |
ND/NZ |
layerId |
[1] |
int32 |
ND |
past |
[layer, batch, maxSeqLen, hiddenSize] |
float16 |
ND/NZ |
tokenOffset |
[batch] |
int32 |
ND |
seqlen |
[batch] |
int32 |
ND |
参数 |
维度 |
数据类型 |
格式 |
---|---|---|---|
present |
[layer, batch, maxSeqLen, hiddenSize] |
float16 |
ND/NZ |
输出present与输入past指向同一地址,即进行原地修改。