概述
展示如何使用msOpProf工具采集Kernel直调方式Ascend C算子的性能数据,以内核调用符<<<>>>方式调用算子为例。
Kernel直调场景,详细信息可参考《Ascend C算子开发指南》中“”章节。
前期准备
操作步骤
基于样例工程的说明,构建可运行在昇腾设备上的算子可执行文件,编译完成后,在工程目录下生成可执行文件add。
[object Object][object Object]
使用如下命令完成msopprof上板性能数据和精细化调优数据的采集,也可参考指定其他命令参数。
[object Object]修改样例工程的编译文件CMakeLists.txt,构建可运行在仿真器上的算子可执行文件,编译完成后,在工程目录下生成可执行文件add_sim。
[object Object]使用如下命令完成msopprof simulator性能数据、流水图和热点图数据的采集,也可参考指定其他命令参数。
[object Object]
[object Object]出现如下打屏回显,表示算子性能数据采集成功。
[object Object]分别查看算子上板和仿真的性能数据,可将采集得到的visualize_data.bin文件导入MindStudio Insight,具体导入操作请参考《MindStudio Insight用户指南》的“”章节。[object Object][object Object]
[object Object]
概述
展示如何使用msOpProf工具采集API调用单算子的性能数据,以自定义算子工程和aclnn单算子API调用为例。
单算子API调用场景,详细信息可参考《Ascend C算子开发指南》中“工程化算子开发 > ”章节。
前期准备
操作步骤
-
[object Object]
基于,构建算子可执行文件。编译完成后,在工程目录下生成可执行文件execute_add_op,该文件可运行在昇腾设备和仿真器上。
[object Object]使用如下命令完成msopprof上板性能数据和精细化调优数据的采集。
[object Object]使用如下命令完成msopprof simulator性能数据、流水图和热点图数据的采集。
[object Object]
[object Object]
概述
通过PyTorch框架进行单算子调用的场景,详细信息可参考《Ascend Extension for PyTorch 套件与三方库支持清单》中“”章节中OpPlugin插件。
PyTorch框架算子调用场景下,进行性能数据采集的操作步骤与基本一致。
概述
展示如何使用msOpProf工具采集triton算子的性能数据。
前期准备
自备Triton算子实现文件。若用户尚未准备Triton算子,可参考操作步骤中的示例。
分别参考msopprof模式用户指南的“”和msopprof simulator模式用户指南的“”完成相关环境变量配置,为采集算子上板和仿真调优数据做准备。
操作步骤
准备基础的triton算子样例test_add.py。
[object Object]使用如下命令完成msopprof上板性能数据和精细化调优数据的采集。
[object Object]使用如下命令完成msopprof simulator性能数据、流水图和热点图数据的采集。
[object Object]
[object Object][object Object]
概述
展示如何使用msOpProf工具采集catlass算子的性能数据。
前期准备
操作步骤
按照的示例,准备环境并编译算子上板可执行文件,以basic_matmul样例为例。
[object Object]使用如下命令完成msopprof上板性能数据和精细化调优数据的采集。
[object Object]编译脚本增加选项--simulator,编译算子仿真可执行文件,并根据提示,加载仿真器二进制路径。
[object Object]使用如下命令完成msopprof simulator性能数据、流水图和热点图数据的采集。
[object Object]
[object Object]
概述
展示如何使用msOpProf工具来上板调优一个MC2算子,并生成通算流水图。
本示例以Ascend CL单算子调用为例,其他调用场景请参见《》。
前期准备
操作步骤