当使用GetTensorC异步接口将结果矩阵从GM拷贝到UB,且UB后续需要进行Vector计算时,需要调用WaitGetTensorC进行同步。
1 | __aicore__ inline void WaitGetTensorC() |
无
无
无
1 2 3 4 5 6 7 8 | // 异步模式样例 mm.template Iterate<false>(); // 其他操作 for (int i = 0; i < singleM/baseM*singleN/baseN; ++i) { mm.GetTensorC<false>(ubCmatrix); mm.WaitGetTensorC(); // Vector 操作 } |