calcType为CALC_TYPE_PREFILL时输入输出
参数 |
维度 |
数据类型 |
格式 |
cpu/npu |
描述 |
---|---|---|---|---|---|
Q |
[nTokens, headNum * embeddimV]/[nTokens, headNum, embeddimV] |
float16/bf16 |
ND |
NPU |
输入,无位置编码query。 |
QRope |
[nTokens, headNum * 64]/[nTokens, headNum, 64] |
float16/bf16 |
ND |
NPU |
输入,旋转位置编码query。 |
K |
[batch, max_seq, kvHeadNum * embeddimV] |
float16/bf16 |
ND |
NPU |
输入,无位置编码key。 |
kRope |
[batch, max_seq, kvHeadNum * 64] |
float16/bf16 |
ND |
NPU |
输入,旋转位置编码key。 |
V |
[batch, max_seq, kvHeadNum * embeddimV] |
float16/bf16 |
ND |
NPU |
输入,无位置编码value。 |
qSeqLen |
[batch] |
int32 |
ND |
CPU |
输入,query的长度。 |
kvSeqLen |
[batch] |
int32 |
ND |
CPU |
输入,key的长度。 |
Mask |
None/[512, 512] |
float16/bf16 |
ND |
NPU |
输入,注意力掩码,UNDEFINED 时不输入,MASK_TYPE_MASK_FREE时输入。 |
attenOut |
[nTokens, headNum * embeddimV]/[ntokens, headNum, embeddimV] |
float16/bf16 |
ND |
NPU |
attention输出。 |
父主题: 输入输出