概述
MindStudio推理工具链为开发者提供一站式推理开发工具,致力于加速模型问题定位效率,提升模型推理性能。
本文档以Llama-3.1-8B-Instruct模型为例,介绍针对大模型推理工具链中的模型量化、推理数据dump、自动精度比对、性能调优等工具的应用。
使用说明
在大模型推理过程中,各工具的功能说明如表1所示。
工具 |
功能说明 |
|---|---|
模型量化 |
提供模型压缩技术,通过降低模型权重和激活值的数值精度,有效减少模型的存储内存占用和计算需求。通常会将高位浮点数转换为低位定点数,从而直接减少模型权重的体积。模型量化工具的输入为能够正常运行的模型和数据,输出为一个可以使用的量化权重和量化因子。 |
数据落盘(dump) |
提供加速库模型推理过程中产生的中间数据的dump能力,落盘的数据用于进行后续的精度比对。 |
精度比对(compare) |
提供一键式精度比对功能,支持快速实现推理场景的整网精度比对。 |
性能调优 |
采集和分析运行在昇腾AI处理器上的AI任务各个运行阶段的关键性能指标,用户可根据输出的性能数据,快速定位软、硬件性能瓶颈,提升AI任务性能分析的效率。 |
环境准备
- 部署开发环境,可参见《MindIE安装指南》的“安装MindIE > 方式一:镜像部署方式”章节内容部署。
- 安装msit工具包,安装过程请参见msit工具安装文档进行安装,推荐使用源代码安装方式。
- 安装msModelSlim软件,请参见msModelSlim安装指南进行安装。
- 安装大模型推理精度工具,请参见大模型推理精度工具进行安装。
- 安装Ascend-cann-toolkit软件包,请参见《CANN软件安装指南》中的“选择安装场景”章节(商用版)或“选择安装场景”章节(社区版)中选择“训练&推理&开发调试”场景安装CANN软件包。
- 安装MindStudio Insight工具,请参见《MindStudio Insight工具用户指南》中的“安装与卸载”章节,选择合适的环境进行安装。
父主题: 大模型推理工具快速入门