概述

针对TensorFlow模型训练过程中可能存在算子溢出的情况,此时若直接进行精度比对操作则会造成比对结果不准确。通过执行dump数据文件功能并开启算子溢出检测,可以检测并收集溢出的算子信息,生成算子溢出数据文件和溢出算子的dump文件。有关算子溢出检测生成算子溢出数据文件和溢出算子的dump文件的详细介绍请参见TensorFlow 1.15网络模型迁移和训练指南中的“手工迁移和训练>更多特性>溢出数据采集”章节。

当生成的算子溢出数据文件和溢出算子的dump文件的落盘时间与算子溢出的时间不一致时,在这两个文件中则无法第一时间定位到第一个溢出的算子。

为了帮助用户快速定位溢出算子,本章节介绍的算子溢出分析工具,可以对生成的Debug file和溢出算子的dump文件进行分析,并展示topN溢出算子的关键信息。