不开启多头压缩功能
compressType=COMPRESS_TYPE_UNDEFINED, kvCacheCfg=K_CACHE_V_CACHE
输入
参数 |
维度 |
数据类型 |
格式 |
描述 |
---|---|---|---|---|
key |
[num_tokens, num_head, k_head_size] |
float16/bf16/int8 |
ND |
当前step多个token的key,不开启多头压缩功能时支持key和value最后一维不同。 |
value |
[num_tokens, num_head, v_head_size] |
float16/bf16/int8 |
ND |
当前step多个token的value,不开启多头压缩功能时支持key和value最后一维不同。 |
keyCache |
[num_blocks, block_size, num_head, k_head_size] |
float16/bf16/int8 |
ND/NZ |
当前layer的key cache,不开启多头压缩功能时支持keyCache和valueCache最后一维不同。 |
valueCache |
[num_blocks, block_size, num_head, v_head_size] |
float16/bf16/int8 |
ND/NZ |
当前layer的value cache,不开启多头压缩功能时支持keyCache和valueCache最后一维不同。 |
slotMapping |
[num_tokens] |
int32 |
ND |
每个token key或value在cache中的存储偏移,即(block_id * block_size + offset_in_block),值域范围为(INT32_MIN, num_blocks * block_size)且不存在重复数值。取值为负数时不进行任何搬运操作。 |
- 若需要在
Atlas A2 训练系列产品 /Atlas 800I A2 推理产品 上使用NZ格式,请参见开启支持输入转NZ格式功能。 Atlas A2 训练系列产品 /Atlas 800I A2 推理产品 :keyCache和valueCache只支持ND格式。Atlas 推理系列产品 :keyCache和valueCache只支持NZ格式,此时其它约束请参见约束说明。
输出
参数 |
维度 |
数据类型 |
格式 |
描述 |
---|---|---|---|---|
keyCacheOut |
[num_blocks, block_size, num_head, k_head_size] |
float16/bf16/int8 |
ND/NZ |
所有的key cache。与输入keyCache为同一地址。 |
valueCacheOut |
[num_blocks, block_size, num_head, v_head_size] |
float16/bf16/int8 |
ND/NZ |
所有的value cache。与输入valueCache为同一地址。 |