SetNextTaskStart
本接口为试验接口,在后续版本中可能会调整或改进,不保证后续兼容性。请开发者在使用过程中关注后续版本更新。
产品支持情况
产品 |
是否支持 |
备注 |
|---|---|---|
Atlas 350 加速卡 |
√ |
该接口生效 |
√ |
该接口生效 |
|
√ |
仅保证编译兼容,实际功能不生效。 |
|
√ |
仅保证编译兼容,实际功能不生效。 |
|
√ |
仅保证编译兼容,实际功能不生效。 |
|
√ |
仅保证编译兼容,实际功能不生效。 |
|
√ |
仅保证编译兼容,实际功能不生效。 |
功能说明
在SuperKernel的子Kernel中调用,调用后的指令可以和后续其他的子Kernel实现并行,提升整体性能。如图1所示,SuperKernel按序调用子Kernel,为保证子Kernel之间数据互不干扰,会在子Kernel间插入算子间同步进行保序,子KernelN-1调用该接口后,之后的指令会和后续子KernelN实现并行。
SuperKernel是一种算子的二进制融合技术,与源码融合不同,它聚焦于内核函数 (Kernel) 的二进制的调度方案,展开深度优化,于已编译的二进制代码基础上融合创建一个超级Kernel函数(SuperKernel),以调用子函数的方式调用多个其他内核函数,也就是子Kernel。相对于单算子下发,SuperKernel技术可以减少任务调度等待时间和调度开销,同时利用Task间隙资源进一步优化算子头开销。
开发者需要自行保证调用此接口后的指令不会与后序算子互相干扰而导致精度问题,推荐在整个算子最后一条搬运指令后调用此接口。
函数原型
- 该原型在如下产品型号支持:
Atlas 训练系列产品 1 2
template<pipe_t AIV_PIPE = PIPE_MTE3, pipe_t AIC_PIPE = PIPE_MTE3> __aicore__ inline void SetNextTaskStart()
参数说明
返回值说明
无
约束说明
调用示例
1 2 3 4 5 6 7 | #include "kernel_operator.h" AscendC::LocalTensor<half> dstLocal = outQueueDst.DeQue<half>(); AscendC::DataCopy(dstGlobal, dstLocal, 512); // 算子最后一条搬运指令后插入,且保证只调用一次 AscendC::SetNextTaskStart(); outQueueDst.FreeTensor(dstLocal); |
