通过Profiling数据分析出性能瓶颈点,再进行对应的调优手段,需要开发者有丰富的调优经验,对开发人员要求较高。
若分析算子性能数据时,发现ReduceSum算子的性能很差,可参见网络调测时ReduceSum算子性能差将算子配置到混合精度黑名单进行处理。
若有AI CPU算子,需要进一步分析AI CPU算子的时间段是否能被AI Core算子的执行时间掩盖住,如果掩盖不住需要考虑将该AI CPU算子用AI Core算子的方式进行实现,详细的实现方法可参见《Ascend C算子开发指南》。