算子耗时统计，包括NPU的时间和GPU的时间。
- GPU数据：参见官方文档使用PyTorch原生接口采集GPU数据。
- NPU数据：通过Ascend PyTorch Profiler工具采集NPU的数据。
算子性能初筛，通过采集到的性能profiling文件中的op_summary数据进行筛选，主要包括非连续转连续算子识别、AICPU算子识别。
通过性能比对工具对比GPU和NPU数据，找到融合算子和对应单算子耗时的差距。
性能详细分析，根据算子的throughput和PMU数据分析单case性能，精确识别待优化算子。

总体思路