昇腾社区首页
中文
注册

规格约束

  • block_size <= 128,建议为128。
  • batch <= 8192。
  • calcType为CALC_TYPE_SPEC,cacheMode为INT8_NZCACHE时,只支持num_heads为128。
  • MTP场景下,即calcType为1或3时,headNum==128时,不支持maskType为0,qseqlen需要小于contextLens。
  • prefill全量场景下:
    • 要求headNum=>1且<=128,headNum==kvHeadNum,maskType=0、2或3,calcType=4,cacheMode=1,embeddimV=128,qSeqLen=kvSeqLen。
    • mask仅支持NO_MASK及正常倒三角mask。