msOpProf 工具用于采集和分析运行在昇腾 AI 处理器上的算子的关键性能指标,用户可根据输出的性能数据,快速定位算子的软、硬件性能瓶颈,提升算子性能的分析效率。 本文档基于入门教程中开发的简易加法算子,演示 msOpProf 工具的核心功能,帮助初学者直观体会其在算子开发过程中带来的高效性与便捷性。
本章节以您已完成《》的全流程操作为前提;若尚未体验,建议先完成该指南以获得更佳的学习效果。
请严格按照《》完成环境安装与工作区配置。 即使您已具备类似环境,也需按该指南重新执行一遍,以确保所有依赖组件、环境变量等完整且一致。
执行以下命令,若输出"All is OK",则表明所需 Python 包及其版本均满足规范:
按照[object Object]《昇腾算子开发工具链快速入门》[object Object]中的指导,完成 2.1 节和 2.3 节。
若算子性能未达预期,可借助 msOpProf 工具采集运行时性能数据,进行深入分析与优化,确保算子在不同昇腾硬件平台上高效执行。先跟着操作体验效果,原理部分可稍后阅读。
1. 修改编译选项
在 Kernel 侧 CMakeLists.txt 首行插入一行配置,开启调试信息:
2. 重新编译部署算子
[object Object]
执行如下命令:
[object Object]
工具在指定 [object Object] 目录下生成 .csv 和 .bin 格式的结果文件,若输出没有报错,则认为执行成功:
csv 文件
例如,MemoryUB.csv 文件打开后可以看到如下信息:
数据显示任务被均分为 8 个 block,全部调度至 Vector Core 执行。例如,Block 0 的带宽(1.02GB/s)明显高于 Block 1(0.77GB/s),如果差异过大,可能提示有优化空间。
bin 文件
请学习下节内容。
上面的 bin 文件可使用 [object Object] 工具打开,以图形化方式直观展示各类性能视图,例如:计算内存热力图、Cache 热力图以及算子代码热点图等。
请参考[object Object]《MindStudio Insight工具文档》[object Object]安装 Insight 工具。
安装后是单机程序,简单操作如下:点击左上角 Import Data,将 visualize_data.bin 导入,然后打开 Details 页面,即可看到很多详细图表。 详细操作及图表具体含义请参考[object Object]《MindStudio Insight工具文档》[object Object]学习。
执行如下命令: