规格约束
- ntokens = sum(seqlen[i]),i=0、1...batch-1。
- 在key和value最后一维不同的情况下只支持Atlas 800I A2 推理产品/Atlas A2 训练系列产品和Atlas A3 推理系列产品/Atlas A3 训练系列产品,此场景下keyCache, valueCache, keyCacheOut, valueCacheOut只支持ND格式。
- key、value、keyCache、valueCache、keyCacheOut 、valueCacheOut的数据类型都必须完全一致。
- keyCache、valueCache、和keyCacheOut 、valueCacheOut的数据格式必须一致。
- 单入单出功能只支持Atlas 800I A2 推理产品/Atlas A2 训练系列产品和Atlas A3 推理系列产品/Atlas A3 训练系列产品,且不支持压缩场景。
- 压缩场景下cache的大小要大于压缩后的大小。
- 不支持Atlas 推理系列产品。
- 当前仅支持key、value在后两维连续的情况。