快速入门
本章节以单算子Link中的basic_matmul为例,帮助用户快速上手msKPP工具的自动调优功能。
操作步骤
- 下载Link中的Ascend C模板库。
- 进入模板库中的autotune样例代码目录。
cd ascendc-operator-templates/examples/autotune
- 参考当前目录下的README.md文件,运行autotune样例脚本。
$ python3 basic_matmul_autotune.py No.1: 24.532μs, {'L1TileShape': 'GemmShape<64, 64, 128>', 'L0TileShape': 'GemmShape<64, 64, 64>'} No.0: 27.693μs, {'L1TileShape': 'GemmShape<64, 64, 64>', 'L0TileShape': 'GemmShape<64, 64, 64>'} No.2: 16.986μs, {'L1TileShape': 'GemmShape<64, 128, 128>', 'L0TileShape': 'GemmShape<64, 128, 64>'} No.3: 20.192μs, {'L1TileShape': 'GemmShape<128, 128, 128>', 'L0TileShape': 'GemmShape<128, 128, 64>'} No.4: 21.540μs, {'L1TileShape': 'GemmShape<128, 64, 128>', 'L0TileShape': 'GemmShape<128, 64, 64>'} Best config: No.2 compare success.
以上显示数据表示在算子代码basic_matmul.cpp中,L1TileShape定义为GemmShape<64, 128, 128>且L0TileShape定义为'GemmShape<64, 128, 64>时,性能最优。
父主题: 自动调优