昇腾社区首页
中文
注册

AI CPU算子转AI CORE

场景解析

Profiling数据发现,OP_TYPE为AI CPU的算子性能较差耗时较高。

调优思路

相比与AI CPU,AI CORE的计算性能更高,需要通过Profiling数据分析算子为何在AI CPU上运行,并调至AI CORE上运行,提升性能。

优化方法

当输入dtype为int64时,AI CORE算子不支持int64,故可以考虑将dtype转换为int32或float类型,即可让算子在AI CORE上运行。

样例参考

修改前代码如下:

_,loss_idx = loss_c.sort(1,descending=True) 
_,idx_rank = loss_idx.sort(1) 
  • 修改后将dtype转换float类型,代码如下:
    _,loss_idx = loss_c.sort(1,descending=True) 
    loss_idx = loss_idx.float()
    _,idx_rank = loss_idx.sort(1)
  • 修改后将dtype转换int32类型,代码如下:
    _,loss_idx = loss_c.sort(1,descending=True) 
    _,idx_rank = loss_idx.to(torch.float32).sort(1)