calcType为CALC_TYPE_PREFILL时输入输出
参数  | 
维度  | 
数据类型  | 
格式  | 
cpu/npu  | 
描述  | 
|---|---|---|---|---|---|
Q  | 
[nTokens, headNum * embeddimV]/[nTokens, headNum, embeddimV]  | 
float16/bf16  | 
ND  | 
NPU  | 
输入,无位置编码query。  | 
QRope  | 
[nTokens, headNum * 64]/[nTokens, headNum, 64]  | 
float16/bf16  | 
ND  | 
NPU  | 
输入,旋转位置编码query。  | 
K  | 
[batch, max_seq, kvHeadNum * embeddimV]  | 
float16/bf16  | 
ND  | 
NPU  | 
输入,无位置编码key。  | 
kRope  | 
[batch, max_seq, kvHeadNum * 64]  | 
float16/bf16  | 
ND  | 
NPU  | 
输入,旋转位置编码key。  | 
V  | 
[batch, max_seq, kvHeadNum * embeddimV]  | 
float16/bf16  | 
ND  | 
NPU  | 
输入,无位置编码value。  | 
qSeqLen  | 
[batch]  | 
int32  | 
ND  | 
CPU  | 
输入,query的长度。  | 
kvSeqLen  | 
[batch]  | 
int32  | 
ND  | 
CPU  | 
输入,key的长度。  | 
Mask  | 
None/[512, 512]  | 
float16/bf16  | 
ND  | 
NPU  | 
输入,注意力掩码,UNDEFINED 时不输入,MASK_TYPE_MASK_FREE时输入。  | 
attenOut  | 
[nTokens, headNum * embeddimV]/[ntokens, headNum, embeddimV]  | 
float16/bf16  | 
ND  | 
NPU  | 
attention输出。  | 
父主题: 输入输出