MLA输入输出
参数 |
维度 |
数据类型 |
格式 |
cpu/npu |
描述 |
---|---|---|---|---|---|
qNope |
[tokenNum, headNum, 512] |
float16/bf16/int8 |
ND |
NPU |
输入,无位置编码query。 cacheMode为2:int8。 |
qRope |
[tokenNum, headNum, 64] |
float16/bf16 |
ND |
NPU |
输入,旋转位置编码query。 |
ctKV |
[blockNum, blockSize, kvHeadNum, 512] |
float16/bf16/int8 |
ND/NZ |
NPU |
输入,无位置编码ctkv。
|
kRope |
[blockNum, blockSize, kvHeadNum, 64] cacheMode为2或3: [blockNum, kvHeadNum*64 / 16 ,blockSize, 16] |
float16/bf16 |
ND/NZ |
NPU |
输入,旋转位置编码k。 cacheMode为2或3:NZ。 |
block_tables |
[batch, maxBlockNumPerQuery] |
int32 |
ND |
NPU |
输入,每个query的kvcache的block映射表。 |
contextLens |
[batch] |
int32 |
ND |
CPU |
输入,每个query对应的上下文长度,kvseqlen。 |
mask |
float16/bf16 |
ND |
NPU |
输入,注意力掩码,maskType不为0时传入。 |
|
qseqlen |
[batch] |
int32 |
ND |
CPU |
输入,calcType为1时传入,每个batch对应的seqLen,取值范围为[1,4]。 |
qkDescale |
[headNum] |
float |
ND |
NPU |
输入,cacheMode为2时传入。 |
pvDescale |
[headNum] |
float |
ND |
NPU |
输入,cacheMode为2时传入。 |
attenOut |
[tokenNum, headNum, 512] |
float16/bf16 |
ND |
NPU |
attention输出。 |
Ise |
[tokenNum, headNum, 1] |
float16/bf16/float |
ND |
NPU |
Ise输出。
|