Tiling调度优化功能

功能简介

静态Shape场景中,有Tiling值依赖的算子,如果不开启本功能,那么Tiling计算在Host CPU侧执行,执行完成后数据再拷贝到Device侧;如果开启本功能,Tiling计算直接在Device侧执行,从而使得静态Shape模型性能得到提升。

使用方法

设置config时使用下列开关进行配置,默认False,如需开启设为True。

import torch_npu
import torchair as tng
config = tng.CompilerConfig()

# Tiling调度优化配置
config.experimental_config.tiling_schedule_optimize = True
npu_backend = tng.get_npu_backend(compiler_config=config)
...
model = Model()
model = torch.compile(model, backend=npu_backend, dynamic=False)