百亿大模型(如LLaMa-13B)由于权重规模巨大,推理过程对昇腾AI处理器的的硬件存储和带宽要求很高。当前的大模型稀疏量化工具,通过减少模型体积、减少内存和带宽的消耗,从而提升模型的性能。
大模型稀疏量化工具包括稀疏、量化和压缩三个部分:
- 稀疏:模型稀疏工具通过算法判断模型权重中每个元素对精度结果的重要性,并将模型权重中对最终精度影响小的权重值置零。
- 量化:模型量化工具将高位浮点数转为低位的定点数,例如16bit降低到8bit,可以直接减少模型权重的体积,带来性能收益。
- 压缩:权重压缩工具将模型权重通过压缩算法进一步编码压缩,最大程度地降低权重体积,生成压缩后权重和索引文件。