计算图
- 在不同参数配置下,加速库OP内部组图不同。其中,当参数“calcType”置为PA_ENCODER时,计算图如下图所示。
图1 paged attention的全量阶段计算图
- 当参数calcType非PA_ENCODER,且参数“kvCacheCfg”置为K_CACHE_V_CACHE时,计算图如下图所示。
图2 flash attentionkvCacheCfg置为K_CACHE_V_CACHE时的计算图
- 当参数“calcType”非PA_ENCODER,且参数“kvCacheCfg”置为K_BYPASS_V_BYPASS时,计算图如下图所示。
图3 flash attentionkvCacheCfg置为K_BYPASS_V_BYPASS时的计算图