多模版生成
针对一张计算图,可能存在多种实现方式。以尾轴concat为例,可以在UB上将多个小包做ub_concat先组成大包再完整搬出,也可以直接转成非连续搬运在GM(Global Memory,全局内存)上完成重排。前者在小shape场景可以显著提高MTE(Memory Transfer Engine,AI Core的数据传递引擎)搬运效率,从而获得更好的性能优势。但ub_concat也存在需要内轴全载的限制,导致某些场景下无法使用。在Schedule阶段无法确定选择哪个模板时,通常会生成一个适用于任意shape的通用模板,以及特定场景下的性能优化模板,由Auto Tiling模块在tiling阶段决定具体使用哪个模板。
父主题: Schedule

