功能

DeepSeek V2提出Multi-Head Latent Attention，通过对hiddenstates进行down-projection处理，压缩hiddensize，减少KVCache显存的占用。通过up-projection恢复KV，进行PA计算。通过算力换显存，来提升吞吐。

开启方式

keyCache的维度[num_blocks, block_size, kv_head_num, head_size_k]与valueCache的维度[num_blocks, block_size, kv_head_num, head_size_v]中head_size_k与head_size_v不相等。

特殊约束

不支持Atlas 推理系列产品。

MLA

功能

开启方式

特殊约束