性能调优建议

在执行完导出Job Profiling的summary数据命令“python3 msprof.py export summary xxx”后，会在屏幕打印相关性能调优建议，具体如下：

如果没有调优建议，相应项目结果显示NA。

基于单算子性能数据cube或vector利用率优化建议
 基于task_trace场景下发采集数据，不支持sys_trace场景。

优化建议原则：

单算子数据分析时，发现算子满足cube或vector使用率小于预设阀值，cube或vector使用利用率低，需要提升利用率。

图1 Low vector(cube) compute utilization
基于单算子性能数据vec_bankgroup_cflt_ratio或vec_bank_cflt_ratio优化建议
 基于task_trace场景下发采集数据，不支持sys_trace场景。

优化建议原则：

单算子数据分析时，发现算子满足vec_bankgroup_cflt_ratio或vec_bank_cflt_ratio使用率大于预设阀值，提示用户bank冲突。

图2 vector bank group conflict has reached the upper limit
基于单算子性能数据memory bound优化建议
 基于task_trace场景下发采集数据，不支持sys_trace场景。

优化建议原则：

单算子数据分析时，发现算子满足memory bound大于设定阈值，检查数据搬运的burthlength是否较小、是否存在重复搬运。

图3 Low data memory handling efficiency
基于单算子性能数据vector bound优化建议
 基于task_trace场景下发采集数据，不支持sys_trace场景。

优化建议原则：

单算子数据分析时，发现算子满足vector bound大于设定阈值，检查vector指令的repeat是否较小、是否频繁设置vectormask。

图4 Please check repeat counts and vector mask

基于整网性能数据相邻算子的间隔大于阀值的优化建议
 基于task_trace场景下发采集数据，不支持op_trace、system_trace场景。

优化建议原则：

根据配置的时间间隔阀值，如果前后两个算子的间隔（上一个算子执行结束到下一个算子执行开始的时间间隔）大于该阀值，即存在等待时长算子。

图5 Task wait time has reached the upper limit
基于整网性能数据transData算子数量优化建议
 基于task_trace场景下发采集数据，不支持op_trace、system_trace场景。

优化建议原则：

存在transData算子，且数量超过设定的阈值，需检查是否有使用transData算子的必要性。

图6 please check and reduce the transData
基于整网性能数据aicpu优化建议
 基于task_trace场景下发采集数据，不支持op_trace、system_trace场景。

优化建议原则：

整网数据分析时，存在aicpu算子，建议优化并去除网络中的aicpu算子。

图7 please check and reduce aicpu operator
基于整网性能数据memory_workspace优化建议
 基于task_trace场景下发采集数据，不支持op_trace、system_trace场景。

优化建议原则：

检测到性能数据中memory_workspace存在不为0的数据，建议优化memory_workspace。

图8 please check and reduce the memory workspace

父主题： Job Profiling的summary数据说明