基于Roofline模型的算子瓶颈识别与优化建议要求的输入数据如下:
- cce代码:可通过ATC工具添加--op_debug_level=4得到,或用户自行在算子编译时保存。参见《ATC工具使用指南》。
- Profiling Task Scheduler任务调度信息数据文件:完成Profiling采集以及Summary和Timeline数据导出,需要采集4次Profiling数据,分别设置AI Core指标ArithmeticUtilization、PipeUtilization、MemoryL0和MemoryUB。详细操作请参见《性能分析工具使用指南》。
- OM离线模型文件:可通过多种方式生成,例如ATC工具转换,参见《ATC工具使用指南》。