全量/增量分离

功能

当模型接入paged attention时,全量阶段选用SelfAttention且“calcType”置为PA_ENCODER,增量阶段选用PagedAttention。而当模型使用传统flash attention时,增量与全量阶段都使用SelfAttention;此时为提高计算效率,可在全量与增量阶段选用不同的calcType。

开启方式

全量阶段:参数“calcType”置为ENCODER。

增量阶段:参数“calcType”置为DECODER。

特殊约束