约束说明

blockSize ＜= 128，建议为128。
batch <= 8192。
MTP场景下，即calcType为1或3时，headNum==128时，不支持maskType为0，qseqlen需要小于contextLens。
cacheMode=2且calcType=2或3 时，maskType=0。
prefill全量场景下：
- 要求headNum=>1且<=128，headNum==kvHeadNum，maskType=0、2或3，calcType=4，cacheMode=1，embeddimV=128，qSeqLen=kvSeqLen。
- mask仅支持NO_MASK及正常倒三角mask。

父主题： MultiLatentAttentionOperation（代码开放）