AI CPU算子转AI CORE
场景解析
Profiling数据发现,OP_TYPE为AI CPU的算子性能较差耗时较高。
调优思路
相比与AI CPU,AI CORE的计算性能更高,需要通过Profiling数据分析算子为何在AI CPU上运行,并调至AI CORE上运行,提升性能。
优化方法
当输入dtype为int64时,AI CORE算子不支持int64,故可以考虑将dtype转换为int32或float类型,即可让算子在AI CORE上运行。
样例参考
修改前代码如下:
_,loss_idx = loss_c.sort(1,descending=True) _,idx_rank = loss_idx.sort(1)
- 修改后将dtype转换float类型,代码如下:
_,loss_idx = loss_c.sort(1,descending=True) loss_idx = loss_idx.float() _,idx_rank = loss_idx.sort(1)
- 修改后将dtype转换int32类型,代码如下:
_,loss_idx = loss_c.sort(1,descending=True) _,idx_rank = loss_idx.to(torch.float32).sort(1)
父主题: 算子瓶颈优化