性能数据分析
通过Profiling数据分析算子问题,相关文件参数解释请参见《性能分析工具使用指南》中“Profiling数据说明”章节。以下以E2E profiling数据采集方式为例。
- 通过profiling结果数据op_summary文件(./result/PROF_***/device_0/summary/op_summary_***.csv文件)分析调度任务执行时间,排查算子耗时。
- 通过profiling结果数据op_summary文件(./result/PROF_***/device_0/summary/op_summary_***.csv文件)分析算子类型。
按照Task Type排序,查看是否AI CPU算子耗时过高。
- 通过profiling结果数据op_statistic_文件(./result/PROF_***/device_0/summary/op_statistic_***.csv文件)分析算子调用总时间,排查是否算子总耗时较长。
按照Total Time排序,分析转换类算子是否耗时占比较大,如transdata、cast。
- 通过结合PyTorch profiling数据的json文件和CANN profiling获得的算子信息文件分析是否存在动态shape问题。
如果CPU轴无算子耗时,则排除调度问题。再结合算子信息文件,若算子耗时较大,则大概率为编译耗时,可能存在动态shape。
父主题: 性能瓶颈分析与优化