概述
MindStudio推理工具链为开发者提供一站式推理开发工具,致力于加速模型问题定位效率,提升模型推理性能。
本文档以Llama-3.1-8B-Instruct模型为例,介绍针对大模型推理工具链中的模型量化、推理数据dump、自动精度比对、性能调优等工具的应用。
使用说明
在大模型推理过程中,会使用模型量化、数据落盘(dump)、精度比对(compare)和性能调优等工具,以完成大模型推理的问题定位。
- 模型量化:是一种模型压缩技术,它通过减少模型权重、激活的数值、表示的精度来降低模型的存储和计算需求。通常会将高位浮点数转换为低位定点数,从而直接减少模型权重的体积。模型量化工具的输入为能够正常运行的模型和数据,输出为一个可以使用的量化权重和量化因子。
- 数据落盘(dump):dump工具提供加速库模型推理过程中产生的中间数据的dump能力,落盘的数据用于进行后续的精度比对。
- 精度比对(compare):compare工具具有一键式精度比对功能,支持快速实现推理场景的整网精度比对。
- 性能调优:性能调优工具用于采集和分析运行在昇腾AI处理器上的AI任务各个运行阶段的关键性能指标,用户可根据输出的性能数据,快速定位软、硬件性能瓶颈,提升AI任务性能分析的效率。
环境准备
- 部署开发环境,可参见《MindIE安装指南》的“安装MindIE > 方式一:镜像部署方式”章节内容部署。
- 安装msit工具包,安装过程请参见msit工具安装文档进行安装,推荐使用源代码安装方式。
- 安装msModelSlim软件,请参见msModelSlim网站下载msModelSlim软件包进行安装。
- 安装大模型推理精度工具,请参见大模型推理精度工具进行安装。
- 安装Ascend-cann-toolkit软件包,请参考《CANN 软件安装指南》(商用版)或《CANN 软件安装指南》(社区版)中选择“训练&推理&开发调试”场景安装CANN软件包。
- 安装MindStudio Insight工具,请参见《MindStudio Insight工具用户指南》中的“安装与卸载”章节,选择合适的环境进行安装。
父主题: 大模型推理工具快速入门