算子上下文
当参数
“calcType”
置为PA_ENCODER时,为paged attention的全量阶段,如下图所示。
图1
paged attention的全量阶段在模型中的位置
其他情况为传统flash attention的全量/增量阶段,如下图所示。
图2
flash attention在模型中的位置
父主题:
SelfAttentionOperation