昇腾社区首页
中文
注册

精度比对流程

简介

当PyTorch网络在昇腾NPU上进行图模式推理时,如果精度不满足预期,应该如何定位和分析问题?

首先进行问题定界,然后将复杂的整网精度问题转换为单个算子问题进行分析。

整体分析流程如图1所示,请根据实际情况逐一排查,目前核心原因集中在:

  • Eager模式下模型存在精度问题。
  • 原生Dynamo导致的精度问题。
  • 算子成Ascend IR图后导致的精度问题。
  • 单个算子运行正常但局部结构成图后导致的精度问题。
图1 精度问题分析流程

精度比对工具

MindStudio(msit工具包)推理工具链为开发者提供了一站式推理开发工具,包括模型压缩、推理数据dump、自动精度比对、性能调优等能力。

精度比对需要借助大模型推理精度工具(Large Language Model Debug Tool)实现,其软件包安装参考大模型推理精度工具,在“简介>工具列表”中有精度自动比对功能的详细介绍,单击Link获取详情。

关键命令如下,此处仅为示例,请以Gitee仓提供的说明为准,全量参数介绍参见精度比对命令参数

msit llm compare -gp ${golden_data} -mp ${target_data} -o ${compare_result_dir}
表1 关键命令参数

参数

说明

-gp,--golden-path

指定标杆数据所在路径,支持单个数据文件路径或文件夹。

-mp,--my-path

指定待比对的数据所在路径,即有精度问题的数据。支持单个数据文件路径或文件夹。

-o,--output

指定比对结果保存路径。