昇腾社区首页
中文
注册

控制可计算batch

功能说明

指定某几个batch参与attention计算。

开启方式

参数“batchRunStatusEnable”置为true,并传入batchRunStatus作为输入tensor。

batchRunStatus为0,1组成的tensor。0代表该位置的batch不参与计算,1代表参与计算。

约束说明

  • 不支持Atlas 推理系列产品
  • 开启此功能时输入的cacheK, cacheV的维度为[batch, maxSeqLen, hiddenSize]。
  • 不支持PA_ENCODER。
  • 不支持PREFIX_ENCODER。