精度比对流程
简介
当PyTorch网络在昇腾NPU上进行图模式推理时,如果精度不满足预期,应该如何定位和分析问题?
首先进行问题定界,然后将复杂的整网精度问题转换为单个算子问题进行分析。
整体分析流程如图1所示,请根据实际情况逐一排查,目前核心原因集中在:
- Eager模式下模型存在精度问题。
- 原生Dynamo导致的精度问题。
- 算子成Ascend IR图后导致的精度问题。
- 单个算子运行正常但局部结构成图后导致的精度问题。
精度比对工具
MindStudio(msit工具包)推理工具链为开发者提供了一站式推理开发工具,包括模型压缩、推理数据dump、自动精度比对、性能调优等能力。
精度比对需要借助大模型推理精度工具(Large Language Model Debug Tool)实现,其软件包安装参考大模型推理精度工具,在“简介>工具列表”中有精度自动比对功能的详细介绍,单击Link获取详情。
关键命令如下,此处仅为示例,请以Gitee仓提供的说明为准,全量参数介绍参见精度比对命令参数。
msit llm compare -gp ${golden_data} -mp ${target_data} -o ${compare_result_dir}
参数 |
说明 |
---|---|
-gp,--golden-path |
指定标杆数据所在路径,支持单个数据文件路径或文件夹。 |
-mp,--my-path |
指定待比对的数据所在路径,即有精度问题的数据。支持单个数据文件路径或文件夹。 |
-o,--output |
指定比对结果保存路径。 |
父主题: 图模式精度比对