约束说明
- blockSize <= 128,建议为128。
- batch <= 8192。
- MTP场景下,即calcType为1或3时,headNum==128时,不支持maskType为0,qseqlen需要小于kvSeqlen。
- cacheMode=2且calcType=2或3 时,maskType=0。
- prefill全量场景下:
- 要求headNum=>1且<=128,headNum==kvHeadNum,maskType=0、2或3,calcType=4,cacheMode=1,embeddimV=128,max(kvSeqlen) >= max(qSeqLen)。
- mask仅支持NO_MASK、正常倒三角mask及swa mask。