推荐业务配置

配置socket建链超时等待时间，默认值为120，单位s。该场景下，建议根据网络规模大小适当调整建链超时等待时间。

export HCCL_CONNECT_TIMEOUT=1200

配置通信算法的编排展开位置。

该场景下建议保持默认值“AI_CPU”，代表通信算法的编排展开位置为AI CPU。

export HCCL_OP_EXPANSION_MODE="AI_CPU"

训练场景下常用通信算子的支持情况可参见训练场景常用通信算子。

推理场景

部署方式	环境变量	配置说明
Prefill-Decode混合部署	HCCL_OP_EXPANSION_MODE	配置通信算法的编排展开位置。该场景下建议配置为“AIV”，代表通信算法的编排展开位置为Vector Core。 export HCCL_OP_EXPANSION_MODE="AIV"
Prefill-Decode混合部署	HCCL_DETERMINISTIC	是否开启确定性计算，用户可以根据使用场景选择开启或关闭，默认值为false，代表关闭确定性计算。 export HCCL_DETERMINISTIC=false
Prefill-Decode分离部署	HCCL_INTRA_ROCE_ENABLE	仅使用LLM-DataDist作为集群管理组件的场景下，建议通过此环境变量配置超节点内使用RoCE链路进行通信；非LLM-DataDist场景，无需配置。 export HCCL_INTRA_ROCE_ENABLE=1
	HCCL_OP_EXPANSION_MODE	配置通信算法的编排展开位置。该场景下建议配置为“AIV”，代表通信算法的编排展开位置为Vector Core。 export HCCL_OP_EXPANSION_MODE="AIV"
	HCCL_DETERMINISTIC	是否开启确定性计算，用户可以根据使用场景选择开启或关闭，默认值为false，代表关闭确定性计算。 export HCCL_DETERMINISTIC=false

推理场景下常用通信算子的支持情况可参见推理场景常用通信算子。

强化学习训推一体

环境变量	配置说明
HCCL_CONNECT_TIMEOUT	配置socket建链超时等待时间，默认值为120，单位s。该场景下，建议根据网络规模大小适当调整建链超时等待时间。 export HCCL_CONNECT_TIMEOUT=1200
HCCL_OP_EXPANSION_MODE	配置通信算法的编排展开位置。该场景下建议保持默认值“AI_CPU”，代表通信算法的编排展开位置为AI CPU。 export HCCL_OP_EXPANSION_MODE="AI_CPU" 需要注意：针对推理通信域，需要通过通信域级别的配置参数将推理通信域的算法编排展开位置设置为“Vector Core”，针对PyTorch框架网络，可通过“hccl_op_expansion_mode”参数配置，配置方法如下： options = torch_npu._C._distributed_c10d.ProcessGroupHCCL.Options() options.hccl_config ={"hccl_op_expansion_mode":3} torch.distributed.init_process_group(backend="hccl", pg_options=options) PyTorch框架参数的详细介绍可参见通过pg_options配置HCCL通信域参数。
HCCL_DETERMINISTIC	是否开启确定性计算，用户可以根据使用场景选择开启或关闭，默认值为false，代表关闭确定性计算。 export HCCL_DETERMINISTIC=false

环境变量

配置说明

配置socket建链超时等待时间，默认值为120，单位s。该场景下，建议根据网络规模大小适当调整建链超时等待时间。

export HCCL_CONNECT_TIMEOUT=1200

配置通信算法的编排展开位置。

该场景下建议保持默认值“AI_CPU”，代表通信算法的编排展开位置为AI CPU。

export HCCL_OP_EXPANSION_MODE="AI_CPU"

需要注意：

针对推理通信域，需要通过通信域级别的配置参数将推理通信域的算法编排展开位置设置为“Vector Core”，针对PyTorch框架网络，可通过“hccl_op_expansion_mode”参数配置，配置方法如下：

options = torch_npu._C._distributed_c10d.ProcessGroupHCCL.Options()
options.hccl_config ={"hccl_op_expansion_mode":3}
torch.distributed.init_process_group(backend="hccl", pg_options=options)

PyTorch框架参数的详细介绍可参见通过pg_options配置HCCL通信域参数。

是否开启确定性计算，用户可以根据使用场景选择开启或关闭，默认值为false，代表关闭确定性计算。

export HCCL_DETERMINISTIC=false

Atlas A2 训练系列产品

训练场景

环境变量	配置说明
HCCL_CONNECT_TIMEOUT	配置socket建链超时等待时间，默认值为120，单位s。该场景下，建议根据网络规模大小适当调整建链超时等待时间。 export HCCL_CONNECT_TIMEOUT=1200
HCCL_OP_EXPANSION_MODE	配置通信算法的编排展开位置。该场景下建议保持默认值“HOST”，代表通信算法的编排展开位置为Host侧CPU。 export HCCL_OP_EXPANSION_MODE="HOST"
HCCL_DETERMINISTIC	是否开启确定性计算，用户可以根据使用场景选择开启或关闭，默认值为false，代表关闭确定性计算。 export HCCL_DETERMINISTIC=false

环境变量

配置说明

配置socket建链超时等待时间，默认值为120，单位s。该场景下，建议根据网络规模大小适当调整建链超时等待时间。

export HCCL_CONNECT_TIMEOUT=1200

配置通信算法的编排展开位置。

该场景下建议保持默认值“HOST”，代表通信算法的编排展开位置为Host侧CPU。

export HCCL_OP_EXPANSION_MODE="HOST"

是否开启确定性计算，用户可以根据使用场景选择开启或关闭，默认值为false，代表关闭确定性计算。

export HCCL_DETERMINISTIC=false

推理场景

环境变量	配置说明
HCCL_OP_EXPANSION_MODE	配置通信算法的编排展开位置。该场景下建议保持默认值“HOST”，代表通信算法的编排展开位置为Host侧CPU。 export HCCL_OP_EXPANSION_MODE="HOST"
HCCL_DETERMINISTIC	是否开启确定性计算，用户可以根据使用场景选择开启或关闭，默认值为false，代表关闭确定性计算。 export HCCL_DETERMINISTIC=false

环境变量

配置说明

配置通信算法的编排展开位置。

该场景下建议保持默认值“HOST”，代表通信算法的编排展开位置为Host侧CPU。

export HCCL_OP_EXPANSION_MODE="HOST"

是否开启确定性计算，用户可以根据使用场景选择开启或关闭，默认值为false，代表关闭确定性计算。

export HCCL_DETERMINISTIC=false

强化学习训推一体

环境变量	配置说明
HCCL_CONNECT_TIMEOUT	配置socket建链超时等待时间，默认值为120，单位s。该场景下，建议根据网络规模大小适当调整建链超时等待时间。 export HCCL_CONNECT_TIMEOUT=1200
HCCL_OP_EXPANSION_MODE	配置通信算法的编排展开位置。该场景下建议保持默认值“HOST”，代表通信算法的编排展开位置为Host侧CPU。 export HCCL_OP_EXPANSION_MODE="HOST"
HCCL_DETERMINISTIC	是否开启确定性计算，用户可以根据使用场景选择开启或关闭，默认值为false，代表关闭确定性计算。 export HCCL_DETERMINISTIC=false

环境变量

配置说明

配置socket建链超时等待时间，默认值为120，单位s。该场景下，建议根据网络规模大小适当调整建链超时等待时间。

export HCCL_CONNECT_TIMEOUT=1200

配置通信算法的编排展开位置。

该场景下建议保持默认值“HOST”，代表通信算法的编排展开位置为Host侧CPU。

export HCCL_OP_EXPANSION_MODE="HOST"