约束说明
- ntokens = sum(seqlen[i]),i=0、1...batch-1。
Atlas 推理系列产品 上有如下约束:- 不支持压缩功能。
- 数据格式标明有NZ的需为NZ格式。
- keyCache和valueCache的维度需为[num_blocks, num_head*head_size/16, block_size, 16],其中最后一维必须为16,block_size需16对齐。
- kvCacheCfg配置为K_CACHE_V_CACHE或K_CACHE_V_CACHE_NZ时,数据格式均为NZ。
- head_size大小需要满足32字节对齐。
- 在key和value最后一维不同的情况下只支持
Atlas A2 训练系列产品 /Atlas 800I A2 推理产品 和Atlas A3 推理系列产品 /Atlas A3 训练系列产品 ,此场景下keyCache、valueCache、keyCacheOut、valueCacheOut只支持ND格式。 - key、value、keyCache、valueCache、keyCacheOut 、valueCacheOut的数据类型都必须完全一致。
- keyCache、valueCache和keyCacheOut 、valueCacheOut的数据格式必须一致。
- 单入单出功能只支持
Atlas A2 训练系列产品 /Atlas 800I A2 推理产品 和Atlas A3 推理系列产品 /Atlas A3 训练系列产品 ,且不支持压缩场景。 - 压缩场景下cache的大小要大于压缩后的大小。
- 不开启多头压缩功能场景下,
Atlas 200I/500 A2 推理产品 上NZ格式下仅支持float16数据类型。 - 开启支持输入转NZ格式功能场景下,有如下约束:
- 只支持
Atlas A2 训练系列产品 /Atlas 800I A2 推理产品 和Atlas A3 推理系列产品 /Atlas A3 训练系列产品 。 - 支持key、value数据不等长功能,即key、value最后一维可以不相等。
- key、value的数据类型可以不相同。
- 只支持