网络调测时ReduceSum算子性能差如何处理

现象描述

网络调测时,网络整体性能较慢。通过Profiling工具获取网络的Profiling数据(Profiling工具的使用方法可参见对应版本的性能分析工具使用指南),并进行算子的性能数据分析,发现ReduceSum算子的性能很差。

查看Profiling性能数据中ReduceSum算子的详细信息,如下图所示:

其中,ReduceSum算子的输入数据类型(input_data_type)为“DT_FLOAT16”,block_dim字段的值为“1”,说明该算子未开启多核并行计算。

解决方案

对于昇腾AI处理器的ReduceSum算子或者是用户自定义实现的调用了TBE DSL的”reduce_sum”接口的算子,若输入的数据类型为float16,由于硬件限制,某些场景下会无法开启多核计算。

以ReduceSum算子为例,输入数据是float16的情况可能有如下两种场景:

仅在ReduceSum算子性能较差时,且符合现象描述时,可尝试使用此方法进行性能提升。