HCCL_RDMA_QP_PORT_CONFIG_PATH

功能描述

两个rank之间RDMA通信时会默认创建1个QP(Queue Pair)进行数据传输,若开发者想让两个rank之间的RDMA通信使用多个QP,并指定多QP通信时使用的源端口号,可通过此环境变量实现。

开发者可通过此环境变量指定<srcIP,dstIP>与端口映射关系配置文件的存储路径,当<srcIP,dstIP>配置多个端口号时,即开启多QP通信,所配置的端口号即为每个QP使用的源端口。

该环境变量配置示例如下:

export HCCL_RDMA_QP_PORT_CONFIG_PATH=/home/tmp

其中“/home/tmp”为<srcIP,dstIP>与端口映射关系配置文件“MultiQpSrcPort.cfg”的存储路径,支持配置为绝对路径或相对路径,该路径最大长度需要小于等于4096个字符。

“MultiQpSrcPort.cfg”文件需要用户自定义(注意文件命名需要保持为“MultiQpSrcPort.cfg”),配置格式如下:

srcIP1,dstIP1=srcPort0,srcPort1,...,srcPortN
srcIPN,dstIPN=srcPort0,srcPort1,...,srcPortN

“MultiQpSrcPort.cfg”文件配置示例如下:

192.2.100.2,192.2.100.3=61100,61101,61102
192.2.100.4,192.2.100.5=61100,61101,61102,61104
0.0.0.0,192.2.100.122=65515,65516,65513

配置示例

export HCCL_RDMA_QP_PORT_CONFIG_PATH=/home/tmp

使用约束

支持的型号

Atlas A2 训练系列产品

Atlas A3 训练系列产品/Atlas A3 推理系列产品