ReduceScatter
功能说明
集合通信算子ReduceScatter的任务下发接口,返回该任务的标识handleId给用户。ReduceScatter的功能为:将所有rank的输入相加(或其他归约操作)后,再把结果按照rank编号均匀分散的到各个rank的输出buffer,每个进程拿到其他进程1/ranksize份的数据进行归约操作。
函数原型
1 2 |
template <bool commit = false> __aicore__ inline HcclHandle ReduceScatter(GM_ADDR sendBuf, GM_ADDR recvBuf, uint64_t recvCount, HcclDataType dataType, HcclReduceOp op, uint64_t strideCount, uint8_t repeat = 1) |
参数说明
参数名 |
输入/输出 |
描述 |
---|---|---|
commit |
输入 |
bool类型。参数取值如下:
|
参数名 |
输入/输出 |
描述 |
---|---|---|
sendBuf |
输入 |
源数据buffer地址。 |
recvBuf |
输出 |
目的数据buffer地址,集合通信结果输出至此buffer中。 |
recvCount |
输入 |
参与ReduceScatter操作的recvBuf的数据个数;sendBuf的数据个数等于recvCount * rank size。 |
dataType |
输入 |
ReduceScatter操作的数据类型,HcclDataType详细可参考表3。 |
op |
输入 |
ReduceScatter的操作类型,目前支持sum操作类型,HcclReduceOp详细可参考表4。 |
strideCount |
输入 |
相邻两张卡间数据在sendBuf上间隔的数据个数。当将一张卡上的sendBuf数据scatter到多张卡的recvBuf时,需要用strideCount参数表示数据间在sendBuf上的地址偏移。 |
repeat |
输入 |
本通信任务需要执行的次数,默认为1。当repeat>1时,下一个sendBuf和recvBuf的偏移在服务端由recvCount*sizeof(dataType)算出。只能用于数据内存连续场景。注意,repeat必须大于等于1。 |
以上图为例,假设4张卡的场景,每份数据被切分为3块(TileCnt为3),每张卡上的0-0、0-1、0-2数据最终reduce+scatter到卡0的recvBuf上,其余的每块1-y、2-y、3-y数据类似,最终分别reduce+scatter到卡1、卡2和卡3的recvBuf上。因此,对一张卡上的数据需要调用3次ReduceScatter接口,完成每份数据的3块切分数据的通信。对于每一份数据,本接口中参数recvCount为TileLen,strideCount为TileLen*TileCnt(即数据块0-0和1-0的间隔数据个数)。由于本例为内存连续场景,因此也可以只调用1次ReduceScatter接口,并将repeat参数设置为3。
返回值
返回该任务的标识handleId,handleId大于等于0。调用失败时,返回 -1。
支持的型号
Atlas A2训练系列产品/Atlas 800I A2推理产品
注意事项
- 调用本接口前确保已调用过Init接口
- 该接口只能在AI Cube核或者AI Vector核两者之一上调用
- 该接口只在0核上工作
调用示例
// 假设已构造好HcclCombineOpParam对象hcclCombineOpParam,以及recvBuf和sendBuf // 且该用例下,假设内存连续,切分块数tileCnt=3,每个切分块数据个数tileLen=100 Hccl hccl; hccl.Init(reinterpret_cast<GM_ADDR>(&hcclCombineOpParam)); if (g_coreType == AIC) { HcclHandle handleId = hccl.ReduceScatter(sendBuf, recvBuf, tileLen, HcclDataType::HCCL_DATA_TYPE_INT8, HcclReduceOp::HCCL_REDUCE_SUM, tileCnt*tileLen, tileCnt); }