昇腾社区首页
中文
注册

问题概述

传统模型推理的精度目标是保障模型在昇腾平台上推理的能力,将模型推理结果和标杆结果进行对比,来评估模型从非昇腾平台迁移到昇腾平台后,是否有精度问题。标杆结果是指模型迁移前在非昇腾平台的输出结果。

传统模型的精度问题大多可归因于算子问题或者模型转换问题,但是模型转换的主要过程也是对算子进行转换、融合、优化,所以大多数精度问题可归纳为算子问题。算子问题大致可分为几类,例如精度不足、数据溢出、算子实现差异、融合规则不合理、硬件差异等。

常见的精度问题现象及可能原因主要包括以下场景:

  • 模型整网输出差异较大,和预期明显不一致

    一般可能因为算子精度溢出、融合规则有问题等原因导致。

  • 模型整网输出差异较小,和标杆结果相比有误差

    可能是累计误差问题,一般由算子实现或者数据精度导致。

  • 模型整网输出和标杆结果一致,但在下游任务或者实际业务场景中有较大差异

    一般是业务层面的前后处理和标杆不一致,需要结合业务场景分析和标杆的差异并对齐。

  • 模型本身没问题,升级硬件环境后模型输出和标杆结果有较大差异

    一般是环境配置问题,硬件环境需要和CANN包等软件环境配套。

这些问题虽然现象各异,但均可采用本文介绍的传统模型精度问题快速分析方法进行定位。