MLA合并输入kvCache功能

功能

过去attention算子会将k和v存储在显存中,随着模型越来越大,输入序列越来越长,kvCache也越来越大,对显存的容量造成很大压力,造成性能上的瓶颈。因此Multi-Head Latent Attention提出将kvCache压缩成一个一个较小的向量,代替原来的kvCache输入进fa算子进行计算。

开启方式

特殊约束