控制可计算batch
功能说明
指定某几个batch参与attention计算。
开启方式
参数“batchRunStatusEnable”置为true,并传入batchRunStatus作为输入tensor。
batchRunStatus为0,1组成的tensor。0代表该位置的batch不参与计算,1代表参与计算。
约束说明
- 不支持
Atlas 推理系列产品 。 - 开启此功能时输入的cacheK, cacheV的维度为[batch, maxSeqLen, hiddenSize]。
- 不支持PA_ENCODER。
- 不支持PREFIX_ENCODER。
父主题: 功能列表