HCCL_INTRA_ROCE_ENABLE
功能描述
用于配置Server内或超节点内是否使用RoCE链路进行通信。
- 针对
Atlas 训练系列产品 与Atlas A2 训练系列产品 /Atlas A2 推理系列产品 ,该环境变量用于配置Server内是否使用RoCE链路进行通信,默认值0,可以单独配置,也可以与环境变量HCCL_INTRA_PCIE_ENABLE同时使用,不同配置组合下,Server内使用的通信链路如下表所示:表1 HCCL_INTRA_PCIE_ENABLE与HCCL_INTRA_ROCE_ENABLE支持的配置组合 HCCL_INTRA_PCIE_ENABLE
HCCL_INTRA_ROCE_ENABLE
Server内通信链路
1
不配置
PCIe
1
0
PCIe
0
1
RoCE
不配置
1
RoCE
0
0
PCIe
不配置
不配置
PCIe
不支持HCCL_INTRA_PCIE_ENABLE和HCCL_INTRA_ROCE_ENABLE同时配置为1。
- 针对
Atlas A3 训练系列产品 /Atlas A3 推理系列产品 ,该环境变量仅在使用LLM-DataDist作为集群管理组件的场景下生效,用于配置超节点内是否使用RoCE链路进行通信,默认值0,配置说明如下:- 0:超节点内采用默认的HCCS链路或PCIe链路进行通信(包括LLM-DataDist通信与HCCL通信)。
- 1:针对Atlas 800T A3 超节点、Atlas 800I A3 超节点与Atlas 900 A3 SuperPoD 超节点,超节点内LLM-DataDist通信采用RoCE链路,HCCL通信不受影响;针对A200T A3 Box8 超节点,LLM-DataDist与HCCL通信都采用RoCE链路。
配置示例
export HCCL_INTRA_ROCE_ENABLE=1
父主题: 功能相关