总体思路
算子耗时统计,包括NPU的时间和GPU的时间。
GPU数据:参见
官方文档
使用PyTorch原生接口采集GPU数据。
NPU数据:通过
Ascend PyTorch Profiler
工具采集NPU的数据。
算子性能初筛,通过采集到的性能profiling文件中的op_summary数据进行筛选,主要包括非连续转连续算子识别、AICPU算子识别。
通过
性能比对工具
对比GPU和NPU数据,找到融合算子和对应单算子耗时的差距。
性能详细分析,根据算子的throughput和PMU数据分析单case性能,精确识别待优化算子。
父主题:
算子计算性能分析与优化