长序列压缩

随着序列长度的增加,每次生成新的token时,都要重新计算之前所有token的key和value,从而导致大量的重复计算,KV-Cache占用的显存也会迅速增大,甚至可能超过模型本身的显存占用,因此KV-Cache的管理确实是Transformer模型在处理长序列时面临的一个重要挑战。

长序列压缩通过一种免训练的KV-Cache的缓存压缩算法(RazorAttention),直接应用于KV-Cache管理策略中,通过这种集成,Transformer模型能够在处理长序列时更加高效,同时保持或提升模型的性能。

本文档基于Alibi编码类型RoPE编码类型的压缩使用方式进行详细介绍。