昇腾社区首页
中文
注册

约束说明

  • blockSize <= 128,建议为128。
  • batch <= 8192。
  • MTP场景下,即calcType为1或3时,headNum==128时,不支持maskType为0,qseqlen需要小于contextLens。
  • cacheMode=2且calcType=2或3 时,maskType=0。
  • prefill全量场景下:
    • 要求headNum=>1且<=128,headNum==kvHeadNum,maskType=0、2或3,calcType=4,cacheMode=1,embeddimV=128,qSeqLen=kvSeqLen。
    • mask仅支持NO_MASK及正常倒三角mask。