约束说明 blockSize <= 128,建议为128。batch <= 8192。MTP场景下,即calcType为1或3时,headNum==128时,不支持maskType为0,qseqlen需要小于contextLens。cacheMode=2且calcType=2或3 时,maskType=0。prefill全量场景下:要求headNum=>1且<=128,headNum==kvHeadNum,maskType=0、2或3,calcType=4,cacheMode=1,embeddimV=128,qSeqLen=kvSeqLen。mask仅支持NO_MASK及正常倒三角mask。 父主题: MultiLatentAttentionOperation(代码开放)