比对步骤(PyTorch为原始训练网络场景)

说明

当指定的比对数据文件大小超过1GB或全网层信息文件、量化算子映射关系文件等json文件大小超过100MB时,比对过程可能耗时较长,系统提示:'The size (%d) of %s more than the XX, it needs more time to run.'。

操作步骤

获取基于GPU执行模型训练生成的数据文件作为标准算子的训练数据文件,将获取基于昇腾AI处理器执行模型训练生成的数据文件作为待比对算子的训练数据文件,执行Tensor比对。

  1. 以HwHiAiUser用户登录操作系统。
  2. 进入/home/HwHiAiUser/Ascend/ascend-toolkit/latest/tools/operator_cmp/compare目录。
  3. 执行Tensor比对命令,样例命令如下:

    python3 msaccucmp.py compare -m /home/Jason.h5 -g /home/resnet50_dump.h5 -out /home/HwHiAiUser/result

    Tensor比对结果result_*.csv文件内容如图1所示。
    图1 模型比对结果

    比对PyTorch算子的训练结果时,仅支持-m、-g、-out、-alg和-p五个参数。比对结果各列参数说明如表1

PyTorch比对的结果中若有IR算子存在精度问题,则需要记录存在精度问题的IR算子名,并根据PyTorch网络模型迁移和训练指南中的“精度调测>PyTorch1.5.0精度比对>单算子溢出检测”章节将IR算子转换为TBE算子后进行精度问题分析。