PairReduceSum
产品支持情况
|
产品 |
是否支持 |
|---|---|
|
Atlas 350 加速卡 |
√ |
|
|
√ |
|
|
√ |
|
|
√ |
|
|
√ |
|
|
x |
|
|
√ |
功能说明
PairReduceSum:相邻两个(奇偶)元素求和,例如(a1, a2, a3, a4, a5, a6...),相邻两个数据求和为(a1+a2, a3+a4, a5+a6, ......)。归约指令的总体介绍请参考如何使用归约计算API。
函数原型
- mask逐bit模式
1 2
template <typename T, bool isSetMask = true> __aicore__ inline void PairReduceSum(const LocalTensor<T>& dst, const LocalTensor<T>& src, const int32_t repeatTime, const uint64_t mask[], const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)
- mask连续模式
1 2
template <typename T, bool isSetMask = true> __aicore__ inline void PairReduceSum(const LocalTensor<T>& dst, const LocalTensor<T>& src, const int32_t repeatTime, const int32_t mask, const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)
参数说明
|
参数名 |
描述 |
|---|---|
|
T |
操作数数据类型。 Atlas 350 加速卡,支持的数据类型为:half/float |
|
isSetMask |
是否在接口内部设置mask。
|
|
参数名称 |
输入/输出 |
含义 |
|---|---|---|
|
dst |
输出 |
目的操作数。 类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。 LocalTensor的起始地址需要32字节对齐。 |
|
src |
输入 |
源操作数。 类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。 LocalTensor的起始地址需要32字节对齐。 |
|
repeatTime |
输入 |
迭代次数。取值范围为[0, 255]。 |
|
mask/mask[] |
输入 |
|
|
dstRepStride |
输入 |
目的操作数相邻迭代间的地址步长。以一个repeat归约后的长度为单位。PairReduce完成后,一个repeat的长度减半。即单位为128Byte。 注意,此参数值 |
|
srcBlkStride |
输入 |
|
|
srcRepStride |
输入 |
返回值说明
无
约束说明
- 操作数地址对齐要求请参见通用地址对齐约束。
- 如果两两相加的两个元素mask位未配置(即当前两个元素不参与运算),对于
Atlas 200I/500 A2 推理产品 ,对应的目的操作数中的值会置为0,对于其他产品型号,对应的目的操作数中的值不会变化。比如float场景下对64个数使用当前指令,mask配置为62,表示最后两个元素不参与运算,对于Atlas 200I/500 A2 推理产品 ,目的操作数中最后一个值会返回0;对于其他产品型号,目的操作数中最后一个值不会变化。
调用示例
本样例中只展示Compute流程中的部分代码。
- PairReduceSum-tensor高维切分计算样例-mask连续模式
1 2 3 4 5 6 7 8 9
// 设定mask为最多的128个全部元素参与计算 int32_t mask = 256/sizeof(half); // 每个repeat128个元素,一共128个元素。 int repeat = 1; // dstLocal: 目的操作数tensor // srcLocal: 源操作数tensor // srcBlkStride = 1, 在一个repeat中,block间没有空隙。 // dstRepStride = 1, srcRepStride = 8, repeat间没有空隙。 AscendC::PairReduceSum<half>(dstLocal, srcLocal, repeat, mask, 1, 1, 8);
- PairReduceSum-tensor高维切分计算样例-mask逐bit模式
1 2 3 4 5 6 7 8 9
// 设定mask为最多的128个全部元素参与计算 uint64_t mask[2] = { UINT64_MAX, UINT64_MAX }; // 每个repeat128个元素,一共128个元素。 int repeat = 1; // dstLocal: 目的操作数tensor // srcLocal: 源操作数tensor // srcBlkStride = 1, 在一个repeat中,block间没有空隙。 // dstRepStride = 1, srcRepStride = 8, repeat间没有空隙。 AscendC::PairReduceSum<half>(dstLocal, srcLocal, repeat, mask, 1, 1, 8);
- 示例结果
输入数据src_gm: [1, 1, 1, -1, 2, 2, -1, 2, 3, 3, 3, -1, 4, 4, -2, 4, .... ] 输出数据dst_gm: [2, 0, 4, 1, 6, 2, 8, 2, .... ]