单算子性能分析及优化

核内的多级流水通常反应了一个单算子的性能,首先我们需要通过各个流水线的工作情况来观察当前算子的状态,对于算子性能分析和优化,通常需要观察以下流水线:

根据不同的流水线时间占比,可以分析出当前哪个流水线是性能瓶颈(占比依次按由大到小分析):

图1 流水线流程图