规格约束
- block_size <= 128,建议为128。
- batch <= 8192。
- calcType为CALC_TYPE_SPEC,cacheMode为INT8_NZCACHE时,只支持num_heads为128。
- MTP场景下,即calcType为1或3时,headNum==128时,不支持maskType为0,qseqlen需要小于contextLens。
- prefill全量场景下:
- 要求headNum=>1且<=128,headNum==kvHeadNum,maskType=0、2或3,calcType=4,cacheMode=1,embeddimV=128,qSeqLen=kvSeqLen。
- mask仅支持NO_MASK及正常倒三角mask。