MLA

功能说明

DeepSeek V2提出Multi-Head Latent Attention，通过对hiddenstates进行down-projection处理，压缩hiddensize，减少KVCache显存的占用。通过up-projection恢复KV，进行PA计算。通过算力换显存，来提升吞吐。

开启方式

keyCache的维度[num_blocks, block_size, kv_head_num, head_size_k]与valueCache的维度[num_blocks, block_size, kv_head_num, head_size_v]中head_size_k与head_size_v不相等。

约束说明

不支持Atlas 推理系列产品。

父主题： 功能列表