功能描述

此环境变量用于配置集合通信Server间通信算法以及超节点间通信算法，支持全局配置算法类型与按算子配置算法类型两种配置方式。

HCCL提供自适应算法选择功能，默认会根据产品形态、数据量和Server个数选择合适的算法，一般情况下用户无需手工指定。若通过此环境变量指定了Server间通信算法，则自适应算法选择功能不再生效。

全局配置算法类型，配置方式如下：
export HCCL_ALGO="level0:NA;level1:<algo>"
- level0代表Server内通信算法，当前仅支持配置为NA。
- level1代表Server间通信算法，支持如下取值：
  - ring：基于环结构的通信算法，通信步数多（线性复杂度），时延相对较高，但通信关系简单，受网络拥塞影响较小。适合通信域内Server个数较少、通信数据量较小、网络存在明显拥塞、且pipeline算法不适用的场景。
  - H-D_R：递归二分和倍增算法（Recursive Halving-Doubling：RHD），通信步数少（对数复杂度），时延相对较低，但在非2次幂节点规模下会引入额外的通信量。适合通信域内Server个数是2的整数次幂且pipeline算法不适用的场景，或Server个数不是2的整数次幂但通信数据量较小的场景。
  - NHR：非均衡的层次环算法（Nonuniform Hierarchical Ring），通信步数少（对数复杂度），时延相对较低。适合通信域内Server个数较多且pipeline算法不适用的场景。
  - NHR_V1：对应历史版本的NHR算法，通信步数少（根复杂度），时延相对较低，适合通信域内Server数为非2的整数次幂且pipeline算法不适用的场景。NHR_V1算法理论性能低于新版NHR算法，该配置项未来会逐步下线，建议开发者使用NHR算法。
  - NB：非均匀的数据块通信算法（Nonuniform Bruck），通信步数少（对数复杂度），时延相对较低。适合通信域内Server个数较多且pipeline算法不适用的场景。
  - AHC：层次化集合通信算法（Asymmetric Hierarchical Concatenate），适用于通信域内NPU分布存在多个层次、多个层次间NPU对称或者非对称分布的场景，当通信域内层次间存在带宽收敛时相对收益会更好。
  - pipeline：流水线并行算法，可并发使用Server内与Server间的链路，适合通信数据量较大且通信域内每机包含多卡的场景。
  - pairwise：逐对通信算法，仅用于AlltoAll、AlltoAllV与AlltoAllVC算子，通信步数较多（线性复杂度），时延相对较高，但可以避免网络中出现一打多现象，适合通信数据量较大、需要规避网络一打多的场景。
  Server间每种通信算法支持的通信算子、数据类型、归约类型、网络运行模式、产品型号等说明可参见Server间通信算法支持度。
按算子类型配置通信算法，配置方式如下：
export HCCL_ALGO="<op0>=level0:NA;level1:<algo0>/<op1>=level0:NA;level1:<algo1>"
其中：
- <op>为通信算子的类型，支持配置为：allgather、reducescatter、allreduce、broadcast、reduce、scatter、alltoall。
- <algo>为指定的通信算子采用的server间通信算法，支持的配置同全局配置方法中的level1取值，请确保指定的通信算法为通信算子支持的算法类型，每种算法支持的通信算子可参见表1，未指定通信算法的通信算子会根据产品形态、节点数以及数据量自动选择通信算法。
- 多个算子之间的配置使用“/”分隔。

当不设置此环境变量时：

针对Atlas 训练系列产品，当通信域内Server的个数为非2的整数次幂时，默认使用ring算法；其他场景默认使用H-D_R算法。
针对Atlas A2 训练系列产品，内部会根据产品形态、节点数以及数据量自动选择算法。
针对Atlas A3 训练系列产品/Atlas A3 推理系列产品，内部会根据产品形态、节点数以及数据量自动选择算法。

配置示例

全局配置算法类型

export HCCL_ALGO="level0:NA;level1:H-D_R"

按算子配置算法类型

# AllReduce算子使用ring算法，其他算子根据产品形态、节点数以及数据量自动选择通信算法。
export HCCL_ALGO="allreduce=level0:NA;level1:ring/allgather=level0:NA;level1:H-D_R"

使用约束

当前版本Server内通信算法仅支持配置为“NA”。
按算子类型配置通信算法时，算子类型请按照<op>为通信算子的类型，支持配置为：allga...所列的值进行配置，注意为小写。

Server间通信算法支持度

表1 Server间通信算法支持度列表
算法类型	集合通信算子	数据类型	归约类型	网络运行模式	是否支持确定性计算	支持的产品型号	不支持算子处理方法
ring	ReduceScatter、AllGather、AllReduce、Reduce、Scatter	int8、int16、int32、 int64、float16、float32、bfp16	sum、prod、max、min	单算子/图模式	是	Atlas 训练系列产品 Atlas A2 训练系列产品 Atlas A3 训练系列产品/Atlas A3 推理系列产品	自动选择为H-D_R
H-D_R	ReduceScatter、AllGather、AllReduce、Broadcast、Reduce	int8、int16、int32、int64、float16、float32、bfp16	sum、prod、max、min	单算子/图模式	是	Atlas 训练系列产品 Atlas A2 训练系列产品 Atlas A3 训练系列产品/Atlas A3 推理系列产品	自动选择为ring算法
NHR	ReduceScatter、AllGather、AllReduce、Broadcast、Scatter	int8、int16、int32、int64、float16、float32、bfp16	sum、prod、max、min	单算子/图模式	是	Atlas 训练系列产品 Atlas A2 训练系列产品 Atlas A3 训练系列产品/Atlas A3 推理系列产品	自动选择为H-D_R或者ring算法
NHR_V1	ReduceScatter、AllGather、AllReduce、Broadcast	int8、int16、int32、int64、float16、float32、bfp16	sum、prod、max、min	单算子/图模式	是	Atlas 训练系列产品 Atlas A2 训练系列产品	自动选择为H-D_R或者ring算法
NB	ReduceScatter、AllGather、AllReduce、Broadcast、Scatter	int8、int16、int32、int64、float16、float32、bfp16	sum、prod、max、min	单算子/图模式	是	Atlas 训练系列产品 Atlas A2 训练系列产品	自动选择为H-D_R或者ring算法
AHC	AllReduce	int8、int16、int32、int64、float16、float32、bfp16	sum、prod、max、min	单算子/图模式	是	Atlas A3 训练系列产品/Atlas A3 推理系列产品	自动选择为H-D_R或者ring算法
pipeline	AllReduce	int8、int16、int32、float16、float32、bfp16	sum、max、min	单算子模式/图模式的动态shape场景	否	Atlas A2 训练系列产品	自动选择为H-D_R或者ring算法
	AllGather	int8、int16、int32、int64、float16、float32、bfp16	-	单算子模式/图模式的动态shape场景	-	Atlas A2 训练系列产品	自动选择为H-D_R或者ring算法
	ReduceScatter	int8、int16、int32、float16、float32、bfp16	sum、max、min	单算子模式/图模式的动态shape场景	否	Atlas A2 训练系列产品	自动选择为H-D_R或者ring算法
	AlltoAll	int8、int16、int32、int64、float16、float32、bfp16	-	单算子模式/图模式的动态shape场景	-	Atlas A2 训练系列产品	自动选择为pairwise算法
	AlltoAllV	int8、int16、int32、int64、float16、float32、bfp16	-	单算子模式/图模式的动态shape场景	-	Atlas A2 训练系列产品	自动选择为pairwise算法
pairwise	AlltoAll、AlltoAllV、AlltoAllVC	int8、int16、int32、int64、float16、float32、bfp16	-	单算子模式/图模式	-	Atlas A2 训练系列产品	自动选择为H-D_R或者ring算法

支持的型号

Atlas 训练系列产品

Atlas A2 训练系列产品

Atlas A3 训练系列产品/Atlas A3 推理系列产品