calcType为CALC_TYPE_PREFILL且参数maskType为MASK_TYPE_CAUSAL_MASK时输入输出
参数 |
维度 |
数据类型 |
格式 |
cpu/npu |
描述 |
---|---|---|---|---|---|
Q |
[nTokens, headNum * embeddimV]/[nTokens, headNum, embeddimV] |
float16/bf16 |
ND |
NPU |
输入,无位置编码query。 |
QRope |
[nTokens, headNum * 64]/[nTokens, headNum, 64] |
float16/bf16 |
ND |
NPU |
输入,旋转位置编码query。 |
K |
[batch, max_seq, kvHeadNum * embeddimV] |
float16/bf16 |
ND |
NPU |
输入,无位置编码key。 |
kRope |
[batch, max_seq, kvHeadNum * 64] |
float16/bf16 |
ND |
NPU |
输入,旋转位置编码key。 |
V |
[batch, max_seq, kvHeadNum * embeddimV] |
float16/bf16 |
ND |
NPU |
输入,无位置编码value。 |
qSeqLen |
[batch] |
int32 |
ND |
CPU |
输入,query的长度。 |
kvSeqLen |
[batch] |
int32 |
ND |
CPU |
输入,key的长度。 |
attenOut |
[nTokens, headNum * embeddimV]/[ntokens, headNum, embeddimV] |
float16/bf16 |
ND |
NPU |
attention输出。 |
父主题: 输入输出