昇腾社区首页
中文
注册
开发者
下载

概述

MindStudio推理工具链为开发者提供一站式推理开发工具,致力于加速模型问题定位效率,提升模型推理性能。

本文档以Llama-3.1-8B-Instruct模型为例,介绍针对大模型推理工具链中的模型量化、推理数据dump、自动精度比对、性能调优等工具的应用。

使用说明

在大模型推理过程中,各工具的功能说明如表1所示。

表1 推理工具功能说明

工具

功能说明

模型量化

提供模型压缩技术,通过降低模型权重和激活值的数值精度,有效减少模型的存储内存占用和计算需求。通常会将高位浮点数转换为低位定点数,从而直接减少模型权重的体积。模型量化工具的输入为能够正常运行的模型和数据,输出为一个可以使用的量化权重和量化因子。

数据落盘(dump)

提供加速库模型推理过程中产生的中间数据的dump能力,落盘的数据用于进行后续的精度比对。

精度比对(compare)

提供一键式精度比对功能,支持快速实现推理场景的整网精度比对。

性能调优

采集和分析运行在昇腾AI处理器上的AI任务各个运行阶段的关键性能指标,用户可根据输出的性能数据,快速定位软、硬件性能瓶颈,提升AI任务性能分析的效率。

环境准备