昇腾社区首页
中文
注册

calcType为CALC_TYPE_PREFILL时输入输出

参数

维度

数据类型

格式

cpu/npu

描述

qNope

[tokenNum, headNum * embeddimV]/[tokenNum, headNum, embeddimV]

float16/bf16

ND

NPU

输入,无位置编码query。

qRope

[tokenNum, headNum * 64] / [tokenNum, headNum, 64]

float16/bf16

ND

NPU

输入,旋转位置编码query。

kNope

[batch, maxSeqLen, kvHeadNum * embeddimV]

float16/bf16

ND

NPU

输入,无位置编码key。

kRope

[batch, maxSeqLen, kvHeadNum * 64]

float16/bf16

ND

NPU

输入,旋转位置编码key。

vNope

[batch, maxSeqLen, kvHeadNum * embeddimV]

float16/bf16

ND

NPU

输入,无位置编码value。

qSeqLen

[batch]

int32

ND

CPU

输入,query的长度。

kvSeqLen

[batch]

int32

ND

CPU

输入,key的长度。

mask

None/[512, 512]

float16/bf16

ND

NPU

输入,注意力掩码,UNDEFINED 时不输入,MASK_TYPE_MASK_FREE时输入。

attenOut

[tokenNum, headNum * embeddimV]/[tokenNum, headNum, embeddimV]

float16/bf16

ND

NPU

attention输出。