开发者
资源
[object Object][object Object][object Object]

msOpProf 工具用于采集和分析运行在昇腾 AI 处理器上的算子的关键性能指标,用户可根据输出的性能数据,快速定位算子的软、硬件性能瓶颈,提升算子性能的分析效率。 本文档基于入门教程中开发的简易加法算子,演示 msOpProf 工具的核心功能,帮助初学者直观体会其在算子开发过程中带来的高效性与便捷性。

[object Object]

本章节以您已完成《》的全流程操作为前提;若尚未体验,建议先完成该指南以获得更佳的学习效果。

[object Object]

请严格按照《》完成环境安装与工作区配置。 即使您已具备类似环境,也需按该指南重新执行一遍,以确保所有依赖组件、环境变量等完整且一致。

[object Object][object Object][object Object]

执行以下命令,若输出"All is OK",则表明所需 Python 包及其版本均满足规范:

[object Object]

若报错,请参照进行正确安装。

[object Object]

按照[object Object]《昇腾算子开发工具链快速入门》[object Object]中的指导,完成 2.1 节和 2.3 节。

[object Object]

若算子性能未达预期,可借助 msOpProf 工具采集运行时性能数据,进行深入分析与优化,确保算子在不同昇腾硬件平台上高效执行。先跟着操作体验效果,原理部分可稍后阅读。

[object Object]

1. 修改编译选项

在 Kernel 侧 CMakeLists.txt 首行插入一行配置,开启调试信息:

[object Object]

2. 重新编译部署算子

[object Object]
[object Object]
[object Object]
[object Object]

执行如下命令:

[object Object]
[object Object]
[object Object]
[object Object]
[object Object]

工具在指定 [object Object] 目录下生成 .csv 和 .bin 格式的结果文件,若输出没有报错,则认为执行成功:

csv 文件
例如,MemoryUB.csv 文件打开后可以看到如下信息: 数据显示任务被均分为 8 个 block,全部调度至 Vector Core 执行。例如,Block 0 的带宽(1.02GB/s)明显高于 Block 1(0.77GB/s),如果差异过大,可能提示有优化空间。

[object Object]undefined

bin 文件
请学习下节内容。

[object Object]

上面的 bin 文件可使用 [object Object] 工具打开,以图形化方式直观展示各类性能视图,例如:计算内存热力图、Cache 热力图以及算子代码热点图等。

[object Object]

请参考[object Object]《MindStudio Insight工具文档》[object Object]安装 Insight 工具。

[object Object]

安装后是单机程序,简单操作如下:点击左上角 Import Data,将 visualize_data.bin 导入,然后打开 Details 页面,即可看到很多详细图表。 详细操作及图表具体含义请参考[object Object]《MindStudio Insight工具文档》[object Object]学习。

[object Object]

执行如下命令:

[object Object]