多模板生成

针对一张计算图，可能存在多种实现方式。以尾轴concat为例，可以在UB上将多个小包做ub_concat先组成大包再完整搬出，也可以直接转成非连续搬运在GM（Global Memory，全局内存）上完成重排。前者在小shape场景可以显著提高MTE（Memory Transfer Engine，AI Core的数据传递引擎）搬运效率，从而获得更好的性能优势。但ub_concat也存在需要内轴全载的限制，导致某些场景下无法使用。在Schedule阶段无法确定选择哪个模板时，通常会生成一个适用于任意shape的通用模板，以及特定场景下的性能优化模板，由Auto Tiling模块在tiling阶段决定具体使用哪个模板。

UB concat模板：
改图模板：

父主题： Schedule