功能

当模型接入paged attention时，全量阶段选用SelfAttention且“calcType”置为PA_ENCODER，增量阶段选用PagedAttention。而当模型使用传统flash attention时，增量与全量阶段都使用SelfAttention；此时为提高计算效率，可在全量与增量阶段选用不同的calcType。

开启方式

全量阶段：参数“calcType”置为ENCODER。

增量阶段：参数“calcType”置为DECODER。

特殊约束

无

全量/增量分离

功能

开启方式

特殊约束