HCCL_ALGO
功能描述
此环境变量用于配置集合通信Server间跨机通信算法,支持如下几种取值:
- ring:基于环结构的并行调度算法,当通信域内Server个数为非2的整数次幂且数量较少时,配置为此算法可提升通信性能。
- H-D_R:递归二分和倍增算法(Halving-doubling Recursive),当通信域内Server个数为2的整数次幂时,配置为此算法具有较好的亲和性,有助于通信性能提升。
- NHR:非均衡的层次环算法(Nonuniform Hierarchical Ring),当通信域内Server个数为非2的整数次幂且集群规模较大时,配置此算法可提升通信性能。
- NB:非均匀的数据块通信算法(Nonuniform Bruck),当通信域内Server个数为非2的整数次幂且集群规模较大时,配置此算法可提升通信性能。当通信域内Server数与通信数据量较大时相对收益会更好。
“NB”为调试功能扩展参数,后续版本可能存在变更,不支持应用于商用产品中。
当通信域内Server的个数为非2的整数次幂时,默认使用ring算法;其他场景默认使用H-D_R算法。
配置示例
export HCCL_ALGO="level0:NA;level1:ring"
- “level0”代表Server内通信算法,当前版本仅支持配置为NA。
- “level1”代表Server间通信算法,支持配置为“ring”、“H-D_R”、“NHR”或者“NB”。
是否必选
否
使用约束
当前版本Server内通信算法仅支持配置为“NA”。
支持的型号
Atlas 训练系列产品
Atlas A2 训练系列产品
父主题: 集合通信相关配置