算子上下文 当参数“calcType”置为PA_ENCODER时,为paged attention的全量阶段,如下图所示。 图1 paged attention的全量阶段在模型中的位置 其他情况为传统flash attention的全量/增量阶段,如下图所示。 图2 flash attention在模型中的位置 父主题: SelfAttentionOperation