精度预检
执行预检
- 数据准备。
- 启动预检。分别在GPU和昇腾NPU环境下使用run_ut命令执行预检操作。(预检场景GPU环境需要使用昇腾NPU环境拷贝的精度数据)
msprobe -f pytorch run_ut -api_info ./dump_data/step0/rank/dump.json -o ./checker_result
出现如下日志表示预检完成。
Successfully completed run_ut/multi_run_ut
此时-o参数指定的路径下会生成两个csv文件,分别为accuracy_checking_details_{timestamp}.csv和accuracy_checking_result_{timestamp}.csv。
这两个文件是预检的中间结果,需要完成下一步,才能得到预检的最终结果。
- 预检结果比对。
将NPU和GPU的预检结果进行比对,查看NPU数据中是否存在精度问题的API。
可以将GPU上的accuracy_checking_details_{timestamp}.csv文件传到昇腾NPU环境,执行如下命令。msprobe -f pytorch api_precision_compare -npu ./npu/accuracy_checking_details_{timestamp}.csv -gpu ./gpu/accuracy_checking_details_{timestamp}.csv -o ./compare_result/accuracy_checking - 预检结果分析。
api_precision_compare会在./compare_result/accuracy_checking目录下生成两个csv文件。
父主题: 模型精度调试(PyTorch)


