性能调优
NPU模式下的性能采集与分析
基于NPU域算子的调用接口编写的算子程序,通过毕昇编译器编译后生成可执行程序,使用算子调优工具运行NPU模式下生成的可执行文件从而采集Ascend C算子在AI处理器上执行的性能数据,进行性能精细调优。
- Profiling性能数据采集:使用msProf工具采集Ascend C算子在AI处理器上执行的性能数据。
- Roofline瓶颈分析:通过msprof op生成的visualize_data.bin文件可通过MindStudio Insight进行可视化呈现,Roofline瓶颈分析图可构建出处理器的性能模型,然后利用该性能模型快速评估出算子的理论性能极限,协助开发者快速识别瓶颈类型。
- 指令流水图:通过msprof op simulator生成的visualize_data.bin文件或trace.json文件,并进行可视化呈现。指令流水图以指令维度展示时序关系,并关联调用栈快速定位瓶颈位置。
父主题: 调试调优