全量/增量分离
功能说明
当模型接入paged attention时,全量阶段选用SelfAttention且“calcType”置为PA_ENCODER,增量阶段选用PagedAttention。而当模型使用传统flash attention时,增量与全量阶段都使用SelfAttention;此时为提高计算效率,可在全量与增量阶段选用不同的calcType。
开启方式
全量阶段:参数“calcType”置为ENCODER。
增量阶段:参数“calcType”置为DECODER。
约束说明
无
父主题: 功能列表