WholeReduceSum
产品支持情况
|
产品 |
是否支持 |
|---|---|
|
Atlas 350 加速卡 |
√ |
|
|
√ |
|
|
√ |
|
|
√ |
|
|
√ |
|
|
x |
|
|
√ |
函数原型
- mask逐bit模式
1 2
template <typename T, bool isSetMask = true> __aicore__ inline void WholeReduceSum(const LocalTensor<T>& dst, const LocalTensor<T>& src, const uint64_t mask[], const int32_t repeatTime, const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)
- mask连续模式
1 2
template <typename T, bool isSetMask = true> __aicore__ inline void WholeReduceSum(const LocalTensor<T>& dst, const LocalTensor<T>& src, const int32_t mask, const int32_t repeatTime, const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)
- mask逐bit模式
1 2
template <typename T, bool isSetMask = true, typename U = T> __aicore__ inline void WholeReduceSum(const LocalTensor<U>& dst, const LocalTensor<T>& src, const uint64_t mask[], const int32_t repeatTime, const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)
- mask连续模式
1 2
template <typename T, bool isSetMask = true, typename U = T> __aicore__ inline void WholeReduceSum(const LocalTensor<U>& dst, const LocalTensor<T>& src, const int32_t mask, const int32_t repeatTime, const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)
参数说明
|
参数名 |
描述 |
|---|---|
|
T |
源操作数数据类型。 |
|
U |
目的操作数数据类型。 |
|
isSetMask |
是否在接口内部设置mask。
|
|
参数名称 |
输入/输出 |
含义 |
|---|---|---|
|
dst |
输出 |
目的操作数。 类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。 LocalTensor的起始地址需要保证2字节对齐(针对half数据类型),4字节对齐(针对float数据类型)。 Atlas 350 加速卡,支持的数据类型为:uint32_t/int32_t/half/float |
|
src |
输入 |
源操作数。 类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。 LocalTensor的起始地址需要32字节对齐。 源操作数的数据类型需要与目的操作数保持一致。 针对Atlas 350 加速卡:src数据类型uint16_t和int16_t时,dst数据类型分别为uint32_t和int32_t,其他情况下,dst数据类型均与src数据类型相同。 Atlas 350 加速卡,支持的数据类型为:uint16_t/int16_t/uint32_t/int32_t/half/float |
|
mask/mask[] |
输入 |
|
|
repeatTime |
输入 |
迭代次数。取值范围为[0, 255]。 |
|
dstRepStride |
输入 |
目的操作数相邻迭代间的地址步长。以一个repeat归约后的长度为单位。 单位为dst数据类型所占字节长度。比如当dst为half时,单位为2Bytes。 注意,此参数值 |
|
srcBlkStride |
输入 |
|
|
srcRepStride |
输入 |
返回值说明
无
约束说明
- 对于WholeReduceSum,其内部的相加方式采用二叉树方式,两两相加:
假设源操作数为128个half类型的数据[data0,data1,data2...data127],一个repeat可以计算完,计算过程如下。
- data0和data1相加得到data00,data2和data3相加得到data01...data124和data125相加得到data62,data126和data127相加得到data63;
- data00和data01相加得到data000,data02和data03相加得到data001...data62和data63相加得到data031;
- 以此类推,得到目的操作数为1个half类型的数据[data]。
需要注意的是两两相加的计算过程中,计算结果大于65504时结果保存为65504。例如源操作数为[60000,60000,-30000,100],首先60000+60000溢出,结果为65504,第二步计算-30000+100=-29900,第四步计算65504-29900=35604。
调用示例
- tensor高维切分计算样例-mask连续模式
1 2 3
// dstLocal,srcLocal均为half类型,srcLocal的计算数据量为512,连续排布,计算结果也需要连续排布,使用tensor高维切分计算接口,设定mask为最多的128个全部元素参与计算 // 根据以上信息,推断出repeatTime为4,dstRepStride为1,srcBlkStride为1,srcRepStride为8 AscendC::WholeReduceSum<half>(dstLocal, srcLocal, 128, 4, 1, 1, 8);
- tensor高维切分计算样例-mask逐bit模式
1 2 3 4 5
// dstLocal,srcLocal均为half类型,srcLocal的计算数据量为512,连续排布,计算结果也需要连续排布,使用tensor高维切分计算接口,设定mask为最多的128个全部元素参与计算 uint64_t mask[2] = { 0xFFFFFFFFFFFFFFFF, 0xFFFFFFFFFFFFFFFF }; // 根据以上信息,推断出repeatTime为4,dstRepStride为1,srcBlkStride为1,srcRepStride为8 AscendC::WholeReduceSum<half>(dstLocal, srcLocal, mask, 4, 1, 1, 8);
- 针对不同场景合理使用归约指令可以带来性能提升,相关介绍请参考选择低延迟指令,优化归约操作性能,具体样例请参考ReduceCustom。