大模型稀疏量化和权重压缩

百亿大模型(如LLaMa-13B)由于权重规模巨大,推理过程对昇腾AI处理器的的硬件存储和带宽要求很高。当前的大模型稀疏量化工具,通过减少模型体积、减少内存和带宽的消耗,从而提升模型的性能。

大模型稀疏量化工具包括稀疏、量化和压缩三个部分: