将矩阵数据从Global Memory搬运到L1 Buffer,在此过程中执行ND->NZ/NHWC->NC1HWC0/NHWC->C1HWNC0操作。若D未对齐C0/type(dst)的大小,将会在L1的最内层维度填充0值。GM中的数据以ND类型存储;L1中的数据以NZ形式存储。
ND->NZ的搬运形式如下图:
常规计算
[object Object]同步计算
[object Object]
无
PIPE_MTE2
- 注意当且仅当D <= 4时,smallc0_en才可以被使能,否则它会失效。
[object Object]