静态Shape场景中,有Tiling值依赖的算子,如果不开启本功能,那么Tiling计算在Host CPU侧执行,执行完成后数据再拷贝到Device侧;如果开启本功能,Tiling计算直接在Device侧执行,从而使得静态Shape模型性能得到提升。
设置config时使用下列开关进行配置,默认False,如需开启设为True。
import torch_npu import torchair as tng config = tng.CompilerConfig() # Tiling调度优化配置 config.experimental_config.tiling_schedule_optimize = True npu_backend = tng.get_npu_backend(compiler_config=config) ... model = Model() model = torch.compile(model, backend=npu_backend, dynamic=False)