定位思路

在NPU训练过程中偶现误差导致精度不达标的场景,例如在某一次训练中的某一轮迭代步数出现loss突变,由于无法稳定复现,并且dump数据的时间消耗和内存占用较高,难以通过dump数据的方案进行精度对比,可以采取对比模型文件的思路进行排查。对比发生异常时的模型文件和正常训练的模型文件中的所有变量,找到余弦相似度最低的变量,如果其余弦相似度低于一定值后,例如0.98,可以认为问题由该输出该变量的算子引入。