昇腾社区首页
中文
注册
开发者
下载

HcommReadReduceOnThread

产品支持情况

产品

是否支持

Atlas A3 训练系列产品/Atlas A3 推理系列产品

Atlas A2 训练系列产品/Atlas A2 推理系列产品

Atlas 200I/500 A2 推理产品

Atlas 推理系列产品

Atlas 训练系列产品

针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,仅支持Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框。

功能说明

从channel上的指定内存读数据,从src中读取长度为count*sizeof(dataType)的内存数据,与dst所指向的相同长度的内存数据进行reduceOp操作,并将结果输出到dst中。接口调用方为dst所在节点。

函数原型

1
int32_t HcommReadReduceOnThread(ThreadHandle thread, ChannelHandle channel, void *dst, const void *src, uint64_t count, HcommDataType dataType, HcommReduceOp reduceOp)

参数说明

参数名

输入/输出

描述

thread

输入

通信线程句柄,为通过HcclThreadAcquire接口获取到的threads。

ThreadHandle类型的定义可参见ThreadHandle

channel

输入

通信通道句柄,为通过HcclChannelAcquire接口获取到的channels。

ChannelHandle类型的定义可参见ChannelHandle

dst

输出

目的内存地址,使用3.2.1-HcclGetHcclBuffer3.2.6-HcclChannelGetHcclBuffer获取到的内存。

src

输入

源内存地址,使用3.2.1-HcclGetHcclBuffer3.2.6-HcclChannelGetHcclBuffer获取到的内存。

count

输入

元素个数。

dataType

输入

数据类型。

HcommDataType类型的定义请参见HcommDataType

针对Atlas A3 训练系列产品/Atlas A3 推理系列产品,支持数据类型:int8、int16、int32、float16、float32、bfp16。

针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,支持数据类型:int8、int16、int32、float16、float32、bfp16。

reduceOp

输入

归约操作类型。

HcommReduceOp类型的定义请参见HcommReduceOp

针对Atlas A3 训练系列产品/Atlas A3 推理系列产品,支持规约类型:sum、max、min。

针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,支持规约类型:sum、max、min。

返回值

int32_t:接口成功返回0,其他失败。

约束说明

调用示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
// 申请通信线程资源
CommEngine engine = CommEngine::COMM_ENGINE_CPU_TS;
uint32_t threadNum = 1;
uint32_t notifyNumPerThread = 1;
ThreadHandle thread;
HcclThreadAcquire(engine, threadNum, notifyNumPerThread, &thread);

// 申请通信通道资源
uint32_t channelNum = 1;
HcclChannelDesc channelDesc;
HcclChannelDescInit(&channelDesc, channelNum);
HcclComm comm;
ChannelHandle channel;
HcclChannelAcquire(comm, engine, &channelDesc, channelNum, &channel);

// 获取本端通信内存信息
void * localBuffer;
uint64_t localBufferSize;
HcclGetHcclBuffer(comm, &localBuffer, &localBufferSize);

// 获取对端通信内存信息
void * remoteBuffer;
uint64_t remoteBufferSize;
HcclChannelGetHcclBuffer(comm, channel, &remoteBuffer, &remoteBufferSize);
uint64_t len = std::min(localBufferSize, remoteBufferSize);

// 将本端内存和对端内存数据进行reduce,输出到本端内存上
HcommWriteReduceOnThread(thread, channel, localBuffer, remoteBuffer,len, HCCL_DATA_TYPE_FP32, HCCL_REDUCE_SUM);