AI CPU是昇腾AI处理器计算单元,因为该CPU计算处理单位自身瓶颈,导致运行在AI CPU上的算子影响模型的执行时间。AI CPU算子的优化往往是重点关注点和优化对象。
模型开发和模型转换过程中,引入AI CPU算子,出现因为串行等待AI CPU算子执行影响模型执行。
从时间序列分析,性能瓶颈一般由串行等待算子造成。当前Timeline时序信息以Stream粒度展示,无法直观发现算子间的串并行关系。
如图1,AI CPU Timeline中Task1(PTCopy)存在模型执行串行等待AI CPU算子执行,瓶颈分析模型需要主动识别这类瓶颈。AI CPU Timeline中Task2计算时间隐藏在AI Core计算时间中,这类AI CPU算子执行可以忽略。
基于Timeline的AI CPU算子优化以Profiling Task Scheduler任务调度信息数据(task_time_*.json)作为输入数据,自动识别串行执行AI CPU算子,给出优化建议,提升模型整体性能。