规格约束
- ntokens = sum(seqlen[i]),i=0、1...batch-1。
- Atlas 推理系列产品上不支持压缩功能,且数据格式标明有NZ的需为NZ格式,keyCache和valueCache的维度需为[num_blocks, num_head*head_size/16, block_size, 16],其中最后一维必须为16,block_size需16对齐。kvCacheCfg配置为K_CACHE_V_CACHE或K_CACHE_V_CACHE_NZ时,数据格式均为NZ。
- 在key和value最后一维不同的情况下只支持Atlas 800I A2 推理产品/Atlas A2 训练系列产品和Atlas A3 推理系列产品/Atlas A3 训练系列产品,此场景下keyCache、valueCache、keyCacheOut、valueCacheOut只支持ND格式。
- key、value、keyCache、valueCache、keyCacheOut 、valueCacheOut的数据类型都必须完全一致。
- keyCache、valueCache、和keyCacheOut 、valueCacheOut的数据格式必须一致。
- 单入单出功能只支持Atlas 800I A2 推理产品/Atlas A2 训练系列产品和Atlas A3 推理系列产品/Atlas A3 训练系列产品,且不支持压缩场景。
- 压缩场景下cache的大小要大于压缩后的大小。
- 不开启多头压缩功能场景下,在Atlas 200I/500 A2 推理产品上NZ格式下仅支持float16数据类型。
- 开启支持输入转NZ格式功能场景下,有如下约束:
- 只支持Atlas 800I A2 推理产品/Atlas A2 训练系列产品和Atlas A3 推理系列产品/Atlas A3 训练系列产品。
- 支持key、value数据不等长功能,即key、value最后一维可以不相等。
- key、value的数据类型可以不相同。