BlockReduceMin
产品支持情况
|
产品 |
是否支持 |
|---|---|
|
Atlas 350 加速卡 |
√ |
|
|
√ |
|
|
√ |
|
|
√ |
|
|
√ |
|
|
x |
|
|
√ |
函数原型
- mask参数逐bit模式
1 2
template <typename T, bool isSetMask = true> __aicore__ inline void BlockReduceMin(const LocalTensor<T>& dst, const LocalTensor<T>& src,const int32_t repeatTime, const uint64_t mask[], const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)
- mask参数连续模式
1 2
template <typename T, bool isSetMask = true> __aicore__ inline void BlockReduceMin(const LocalTensor<T>& dst, const LocalTensor<T>& src,const int32_t repeatTime, const int32_t mask, const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)
参数说明
|
参数名 |
描述 |
|---|---|
|
T |
操作数数据类型。 Atlas 350 加速卡,支持的数据类型为:half/float |
|
isSetMask |
是否在接口内部设置mask。
|
|
参数名称 |
输入/输出 |
含义 |
|---|---|---|
|
dst |
输出 |
目的操作数。 类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。 LocalTensor的起始地址需要保证16字节对齐(针对half数据类型),32字节对齐(针对float数据类型)。 |
|
src |
输入 |
源操作数。 类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。 LocalTensor的起始地址需要32字节对齐。 |
|
repeatTime |
输入 |
迭代次数。取值范围为[0, 255]。 |
|
mask/mask[] |
输入 |
|
|
dstRepStride |
输入 |
目的操作数相邻迭代间的地址步长。以一个repeatTime归约后的长度为单位。 每个repeat(8个datablock)归约后,得到8个元素,所以源操作数类型为half类型时,RepStride单位为16Byte;源操作数类型为float类型时,RepStride单位为32Byte。 注意,此参数值 |
|
srcBlkStride |
输入 |
|
|
srcRepStride |
输入 |
返回值说明
无
约束说明
- 操作数地址对齐要求请参见通用地址对齐约束。
- 为了节省地址空间,您可以定义一个Tensor,供源操作数与目的操作数同时使用(即地址重叠),需要注意计算后的目的操作数数据不能覆盖未参与计算的源操作数,需要谨慎使用。
- 对于
Atlas 200I/500 A2 推理产品 ,若配置的mask/mask[]参数后,存在某个datablock里的任何一个元素都不参与计算,则该datablock内所有元素的最小值会填充为inf返回。比如float场景下,当mask配置为32,即只计算前4个datablock,则后四个datablock内的最小值会返回inf。half场景下,最小值会返回65504。 - 针对不同场景合理使用归约指令可以带来性能提升,相关介绍请参考选择低延迟指令,优化归约操作性能,具体样例请参考ReduceCustom。
调用示例
- BlockReduceMin-tensor高维切分计算样例-mask连续模式
1 2 3 4 5 6 7 8 9
// 设定mask为最多的128个全部元素参与计算 int32_t mask = 256/sizeof(half); // 每个repeat128个元素,一共128个元素。 int repeat = 1; // dstLocal: 目的操作数tensor // srcLocal: 源操作数tensor // srcBlkStride = 1, 在一个repeat中,block间没有空隙。 // dstRepStride = 1, srcRepStride = 8, repeat间没有空隙。 AscendC::BlockReduceMin<half>(dstLocal, srcLocal, repeat, mask, 1, 1, 8);
- BlockReduceMin-tensor高维切分计算样例-mask逐bit模式
1 2 3 4 5 6 7 8 9
// 设定mask为最多的128个全部元素参与计算 uint64_t mask[2] = { UINT64_MAX, UINT64_MAX }; // 每个repeat128个元素,一共128个元素。 int repeat = 1; // dstLocal: 目的操作数tensor // srcLocal: 源操作数tensor // srcBlkStride = 1, 在一个repeat中,block间没有空隙。 // dstRepStride = 1, srcRepStride = 8, repeat间没有空隙。 AscendC::BlockReduceMin<half>(dstLocal, srcLocal, repeat, mask, 1, 1, 8);
输入数据src_gm: [10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 2, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, -3, 10, 10, ... 10, 10, 10, 10, 10, 10, 10, 10, 10, 4, 10, 10, 10, 10, 10, 10, ] 输出数据dst_gm: [2, -3, ..., 4]