昇腾社区首页
中文
注册

calcType为CALC_TYPE_PREFILL且参数maskType为MASK_TYPE_CAUSAL_MASK时输入输出

参数

维度

数据类型

格式

cpu/npu

描述

qNope

[tokenNum, headNum * embeddimV]/[tokenNum, headNum, embeddimV]

float16/bf16

ND

NPU

输入,无位置编码query。

qRope

[tokenNum, headNum * 64] / [tokenNum, headNum, 64]

float16/bf16

ND

NPU

输入,旋转位置编码query。

kNope

[batch, maxSeqLen, kvHeadNum * embeddimV]

float16/bf16

ND

NPU

输入,无位置编码key。

kRope

[batch, maxSeqLen, kvHeadNum * 64]

float16/bf16

ND

NPU

输入,旋转位置编码key。

vNope

[batch, maxSeqLen, kvHeadNum * embeddimV]

float16/bf16

ND

NPU

输入,无位置编码value。

qSeqLen

[batch]

int32

ND

CPU

输入,query的长度。

kvSeqLen

[batch]

int32

ND

CPU

输入,key的长度。

attenOut

[tokenNum, headNum * embeddimV]/[tokenNum, headNum, embeddimV]

float16/bf16

ND

NPU

attention输出。