RepeatReduceSum
产品支持情况
|
产品 |
是否支持 |
|---|---|
|
Atlas 350 加速卡 |
√ |
|
|
x |
|
|
√ |
|
|
x |
|
|
√ |
|
|
x |
|
|
√ |
功能说明
每个repeat内所有数据求和。和WholeReduceSum接口相比,不支持mask逐bit模式。建议使用功能更全面的WholeReduceSum接口。
函数原型
1 2 3 |
// 除Atlas 350 加速卡之外的产品型号,支持该原型 template <typename T, bool isSetMask = true> __aicore__ inline void RepeatReduceSum(const LocalTensor<T>& dst, const LocalTensor<T>& src, const int32_t repeatTime, const int32_t mask, const int32_t dstBlkStride, const int32_t srcBlkStride, const int32_t dstRepStride, const int32_t srcRepStride); |
1 2 3 |
// Atlas 350 加速卡支持该原型 template <typename T, bool isSetMask = true, typename U = T> __aicore__ inline void RepeatReduceSum(const LocalTensor<U>& dst, const LocalTensor<T>& src, const int32_t repeatTime, const int32_t mask, const int32_t dstBlkStride, const int32_t srcBlkStride, const int32_t dstRepStride, const int32_t srcRepStride); |
参数说明
|
参数名 |
描述 |
|---|---|
|
T |
源操作数数据类型。 |
|
U |
目的操作数数据类型。 |
|
isSetMask |
是否在接口内部设置mask。
|
|
参数名称 |
输入/输出 |
含义 |
|---|---|---|
|
dst |
输出 |
目的操作数。 类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。 LocalTensor的起始地址需要保证2字节对齐(针对half数据类型),4字节对齐(针对float数据类型)。 Atlas 350 加速卡,支持的数据类型为:uint32_t/int32_t/half/float |
|
src |
输入 |
源操作数。 类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。 LocalTensor的起始地址需要32字节对齐。 源操作数的数据类型需要与目的操作数保持一致。 针对Atlas 350 加速卡:src数据类型uint16_t和int16_t时,dst数据类型分别为uint32_t和int32_t,其他情况下,dst数据类型均与src数据类型相同。 Atlas 350 加速卡,支持的数据类型为:uint16_t/int16_t/uint32_t/int32_t/half/float |
|
repeatTime |
输入 |
重复迭代次数。取值范围为[0, 255]。矢量计算单元,每次读取连续的256Bytes数据进行计算,为完成对输入数据的处理,必须通过多次迭代才能完成所有数据的读取与计算。repeatTime表示迭代的次数。 |
|
mask |
输入 |
用于控制每次迭代内连续的多少个元素参与计算。取值范围和操作数的数据类型有关,数据类型不同,每次迭代内能够处理的元素个数最大值不同。当操作数为16位时,mask∈[1, 128];当操作数为32位时,mask∈[1, 64]。 |
|
dstBlkStride |
输入 |
此参数无效,可以配置任意值。 |
|
srcBlkStride |
输入 |
|
|
dstRepStride |
输入 |
目的操作数相邻迭代间的地址步长。以一个repeat归约后的长度为单位。 单位为dst数据类型所占字节长度。比如当dst为half时,单位为2Bytes。 注意,此参数值 |
|
srcRepStride |
输入 |
返回值说明
无
约束说明
- 对于RepeatReduceSum,其内部的相加方式采用二叉树方式,两两相加:
假设源操作数为128个half类型的数据[data0,data1,data2...data127],一个repeat可以计算完,计算过程如下。
- data0和data1相加得到data00,data2和data3相加得到data01...data124和data125相加得到data62,data126和data127相加得到data63;
- data00和data01相加得到data000,data02和data03相加得到data001...data62和data63相加得到data031;
- 以此类推,得到目的操作数为1个half类型的数据[data]。
需要注意的是两两相加的计算过程中,计算结果大于65504时结果保存为65504。例如源操作数为[60000,60000,-30000,100],首先60000+60000溢出,结果为65504,第二步计算-30000+100=-29900,第四步计算65504-29900=35604。
调用示例
1 2 3 4 5 |
// dstLocal,srcLocal均为half类型,srcLocal的计算数据量为512,连续排布,计算结果也需要连续排布,使用tensor高维切分计算接口,设定mask为最多的128个全部元素参与计算 // 根据以上信息,推断出repeat为4,dstRepStride为1,srcBlkStride为1,srcRepStride为8,dstBlkStride无效,此处配置0,因此接口示例为: int mask = 128; // 参与计算的有效数字 int repeat = 4; // repeat = 512 / mask AscendC::RepeatReduceSum<half>(dstLocal, srcLocal, repeat, mask, 0, 1, 1, 8); |
输入数据(src_gm): [1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 ... 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 ] 输出数据(dst_gm): [128 256 ... 384]