总体思路

  1. 算子耗时统计,包括NPU的时间和GPU的时间。
  2. 算子性能初筛,通过采集到的性能profiling文件中的op_summary数据进行筛选,主要包括非连续转连续算子识别、AICPU算子识别。
  3. 通过性能比对工具对比GPU和NPU数据,找到融合算子和对应单算子耗时的差距。
  4. 性能详细分析,根据算子的throughput和PMU数据分析单case性能,精确识别待优化算子。