昇腾社区首页
中文
注册
开发者
下载

HcclCommInitRootInfoConfig

产品支持情况

产品

是否支持

Atlas A3 训练系列产品/Atlas A3 推理系列产品

Atlas A2 训练系列产品

Atlas A2 推理系列产品

Atlas 200I/500 A2 推理产品

Atlas 推理系列产品

Atlas 训练系列产品

针对Atlas 推理系列产品,仅支持此系列产品中的Atlas 300I Duo 推理卡

功能说明

根据rootInfo初始化HCCL,创建具有特定配置的HCCL通信域。

该接口在同一进程内支持多线程并发调用,但仅支持单卡单线程的场景,若是单卡多线程,不支持并发调用。

如下图所示,不支持step0与step1并发调用,需要step0执行结束后,再串行执行step1。

函数原型

1
HcclResult HcclCommInitRootInfoConfig(uint32_t nRanks, const HcclRootInfo *rootInfo, uint32_t rank, const HcclCommConfig *config, HcclComm *comm)

参数说明

参数名

输入/输出

描述

nRanks

输入

集群中的rank数量。

rootInfo

输入

root rank信息,主要包含root rank的ip、id等信息,由HcclGetRootInfo接口生成。

rank

输入

本rank的rank id。

config

输入

通信域配置项,包括buffer大小、确定性计算开关、通信域名称、通信算法编排展开位置等信息,配置参数需确保在合法值域内,关于HcclCommConfig中的详细参数含义及优先级可参见HcclCommConfig的定义。

需要注意:传入的config必须先调用HcclCommConfigInit对其进行初始化。

comm

输出

初始化后的通信域指针。

HcclComm类型的定义可参见HcclComm

返回值

HcclResult:接口成功返回HCCL_SUCCESS,其他失败。

约束说明

同一通信域中所有rank的nRanks、rootInfo、config均应相同。

调用示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
uint32_t rankSize = 8;
uint32_t deviceId = 0;
// 生成 root 节点的 rank 标识信息
HcclRootInfo rootInfo;
HcclGetRootInfo(&rootInfo);

// 创建并初始化通信域配置项
HcclCommConfig config;
HcclCommConfigInit(&config);
// 按需修改通信域配置
config.hcclBufferSize = 1024;  // 共享数据的缓存区大小,单位为:MB,取值需 >= 1,默认值为:200
config.hcclDeterministic = 1;  // 开启归约类通信算子的确定性计算,默认值为:0,表示关闭确定性计算功能
std::strcpy(config.hcclCommName, "comm_1");
// 初始化集合通信域
HcclComm hcclComm;
HCCLCHECK(HcclCommInitRootInfoConfig(rankSize, &rootInfo, deviceId, &config, &hcclComm));

// 销毁通信域
HcclCommDestroy(hcclComm);