calcType为CALC_TYPE_PREFILL且参数maskType为MASK_TYPE_CAUSAL_MASK时输入输出
参数 |
维度 |
数据类型 |
格式 |
cpu/npu |
描述 |
---|---|---|---|---|---|
qNope |
[tokenNum, headNum * embeddimV]/[tokenNum, headNum, embeddimV] |
float16/bf16 |
ND |
NPU |
输入,无位置编码query。 |
qRope |
[tokenNum, headNum * 64] / [tokenNum, headNum, 64] |
float16/bf16 |
ND |
NPU |
输入,旋转位置编码query。 |
kNope |
[batch, maxSeqLen, kvHeadNum * embeddimV] |
float16/bf16 |
ND |
NPU |
输入,无位置编码key。 |
kRope |
[batch, maxSeqLen, kvHeadNum * 64] |
float16/bf16 |
ND |
NPU |
输入,旋转位置编码key。 |
vNope |
[batch, maxSeqLen, kvHeadNum * embeddimV] |
float16/bf16 |
ND |
NPU |
输入,无位置编码value。 |
qSeqLen |
[batch] |
int32 |
ND |
CPU |
输入,query的长度。 |
kvSeqLen |
[batch] |
int32 |
ND |
CPU |
输入,key的长度。 |
attenOut |
[tokenNum, headNum * embeddimV]/[tokenNum, headNum, embeddimV] |
float16/bf16 |
ND |
NPU |
attention输出。 |
父主题: 输入输出