采集Ascend C算子的性能数据
展示如何使用msProf工具来上板调优一个vector算子,该vector算子可实现两个向量相加并输出结果的功能。
前提条件
- 单击Link获取样例工程,为进行算子上板和仿真调优做准备。
- 参考使用前准备完成相关环境变量配置。
操作步骤
- 基于样例工程的说明,并参考Kernel直调,完成算子编译前的准备工作。
- 构建单算子可执行文件。
以Add算子为例,可执行文件的构建命令示例如下:
bash run.sh -r npu -v <soc_version> # 运行在昇腾设备上的算子 bash run.sh -r sim -v <soc_version> # 运行在仿真器上的算子
一键式编译运行脚本完成后,在工程目录下生成NPU侧可执行文件ascendc_kernels_bbit。
- 本示例中可执行文件的名称(ascendc_kernels_bbit)仅为示例,具体以当前工程中用户实际编译的脚本为准。
- 在安装昇腾AI处理器的服务器执行npu-smi info命令进行查询,获取Chip Name信息。实际配置值为AscendChip Name,例如Chip Name取值为xxxyy,实际配置值为Ascendxxxyy。
- 采集算子性能数据。
对于运行在昇腾设备上的算子,使用如下命令完成工具使用。性能数据和精细化调优数据采集。
msprof op ascendc_kernels_bbit
对于运行在仿真器上的算子,使用如下命令完成工具使用。 性能数据、流水图和热点图数据采集。
msprof op simulator ascendc_kernels_bbit
- 查看算子性能数据,具体请参见工具使用章节。
父主题: 典型案例