昇腾社区首页
中文
注册

MLA

功能说明

DeepSeek V2提出Multi-Head Latent Attention,通过对hiddenstates进行down-projection处理,压缩hiddensize,减少KVCache显存的占用。通过up-projection恢复KV,进行PA计算。通过算力换显存,来提升吞吐。

开启方式

keyCache的维度[num_blocks, block_size, kv_head_num, head_size_k]与valueCache的维度[num_blocks, block_size, kv_head_num, head_size_v]中head_size_k与head_size_v不相等。

约束说明

不支持Atlas 推理系列产品