昇腾社区首页
中文
注册
开发者
下载

算子上下文

  • 当参数“calcType”置为PA_ENCODER时,为paged attention的全量阶段,如下图所示。
    图1 paged attention的全量阶段在模型中的位置
  • 其他情况为传统flash attention的全量/增量阶段,如下图所示。
    图2 flash attention在模型中的位置