性能调优建议
在执行完导出Job Profiling的summary数据命令“python3 msprof.py export summary xxx”后,会在屏幕打印相关性能调优建议,具体如下:

如果没有调优建议,相应项目结果显示NA。
- 基于单算子性能数据cube或vector利用率优化建议
基于task_trace场景下发采集数据,不支持sys_trace场景。
优化建议原则:
单算子数据分析时,发现算子满足cube或vector使用率小于预设阀值,cube或vector使用利用率低,需要提升利用率。
图1 Low vector(cube) compute utilization - 基于单算子性能数据vec_bankgroup_cflt_ratio或vec_bank_cflt_ratio优化建议
基于task_trace场景下发采集数据,不支持sys_trace场景。
优化建议原则:
单算子数据分析时,发现算子满足vec_bankgroup_cflt_ratio或vec_bank_cflt_ratio使用率大于预设阀值,提示用户bank冲突。
图2 vector bank group conflict has reached the upper limit - 基于单算子性能数据memory bound优化建议
基于task_trace场景下发采集数据,不支持sys_trace场景。
优化建议原则:
单算子数据分析时,发现算子满足memory bound大于设定阈值,检查数据搬运的burthlength是否较小、是否存在重复搬运。
图3 Low data memory handling efficiency - 基于单算子性能数据vector bound优化建议
基于task_trace场景下发采集数据,不支持sys_trace场景。
优化建议原则:
单算子数据分析时,发现算子满足vector bound大于设定阈值,检查vector指令的repeat是否较小、是否频繁设置vectormask。
图4 Please check repeat counts and vector mask
- 基于整网性能数据相邻算子的间隔大于阀值的优化建议
基于task_trace场景下发采集数据,不支持op_trace、system_trace场景。
优化建议原则:
根据配置的时间间隔阀值,如果前后两个算子的间隔(上一个算子执行结束到下一个算子执行开始的时间间隔)大于该阀值,即存在等待时长算子。
图5 Task wait time has reached the upper limit - 基于整网性能数据transData算子数量优化建议
基于task_trace场景下发采集数据,不支持op_trace、system_trace场景。
优化建议原则:
存在transData算子,且数量超过设定的阈值,需检查是否有使用transData算子的必要性。
图6 please check and reduce the transData - 基于整网性能数据aicpu优化建议
基于task_trace场景下发采集数据,不支持op_trace、system_trace场景。
优化建议原则:
整网数据分析时,存在aicpu算子,建议优化并去除网络中的aicpu算子。
图7 please check and reduce aicpu operator - 基于整网性能数据memory_workspace优化建议
基于task_trace场景下发采集数据,不支持op_trace、system_trace场景。
优化建议原则:
检测到性能数据中memory_workspace存在不为0的数据,建议优化memory_workspace。
图8 please check and reduce the memory workspace