FA支持Prefix Encoder

功能

FA支持按block存放的kvCache。BlockTables维度为[batch, maxBlockNum],其中每个batch对应存放当前query对应的key和value的index,maxBlockNum约为key,value中最长kvSeqLen,kvSeqLen/blockSize向上取整。

开启方式

calcType置为PREFIX_ENCODER。

特殊约束