推荐业务配置
本节分别针对
Atlas A3 训练系列产品
/
Atlas A3 推理系列产品
- 训练场景
环境变量
配置说明
配置socket建链超时等待时间,默认值为120,单位s。该场景下,建议根据网络规模大小适当调整建链超时等待时间。export HCCL_CONNECT_TIMEOUT=1200
配置通信算法的编排展开位置。
该场景下建议保持默认值“AI_CPU”,代表通信算法的编排展开位置为AI CPU。
export HCCL_OP_EXPANSION_MODE="AI_CPU"
- 推理场景
部署方式
环境变量
配置说明
Prefill-Decode混合部署
配置通信算法的编排展开位置。
该场景下建议配置为“AIV”,代表通信算法的编排展开位置为Vector Core。
export HCCL_OP_EXPANSION_MODE="AIV"
是否开启确定性计算,用户可以根据使用场景选择开启或关闭,默认值为false,代表关闭确定性计算。
export HCCL_DETERMINISTIC=false
Prefill-Decode分离部署
仅使用LLM-DataDist作为集群管理组件的场景下,建议通过此环境变量配置超节点内使用RoCE链路进行通信;非LLM-DataDist场景,无需配置。
export HCCL_INTRA_ROCE_ENABLE=1
配置通信算法的编排展开位置。
该场景下建议配置为“AIV”,代表通信算法的编排展开位置为Vector Core。
export HCCL_OP_EXPANSION_MODE="AIV"
是否开启确定性计算,用户可以根据使用场景选择开启或关闭,默认值为false,代表关闭确定性计算。
export HCCL_DETERMINISTIC=false
- 强化学习训推一体
环境变量
配置说明
配置socket建链超时等待时间,默认值为120,单位s。该场景下,建议根据网络规模大小适当调整建链超时等待时间。
export HCCL_CONNECT_TIMEOUT=1200
配置通信算法的编排展开位置。
该场景下建议保持默认值“AI_CPU”,代表通信算法的编排展开位置为AI CPU。
export HCCL_OP_EXPANSION_MODE="AI_CPU"
需要注意:
针对推理通信域,需要通过通信域级别的配置参数将推理通信域的算法编排展开位置设置为“Vector Core”,针对PyTorch框架网络,可通过“hccl_op_expansion_mode”参数配置,配置方法如下:
options = torch_npu._C._distributed_c10d.ProcessGroupHCCL.Options() options.hccl_config ={"hccl_op_expansion_mode":3} torch.distributed.init_process_group(backend="hccl", pg_options=options)
是否开启确定性计算,用户可以根据使用场景选择开启或关闭,默认值为false,代表关闭确定性计算。
export HCCL_DETERMINISTIC=false
Atlas A2 训练系列产品
- 训练场景
环境变量
配置说明
配置socket建链超时等待时间,默认值为120,单位s。该场景下,建议根据网络规模大小适当调整建链超时等待时间。export HCCL_CONNECT_TIMEOUT=1200
配置通信算法的编排展开位置。
该场景下建议保持默认值“HOST”,代表通信算法的编排展开位置为Host侧CPU。
export HCCL_OP_EXPANSION_MODE="HOST"
是否开启确定性计算,用户可以根据使用场景选择开启或关闭,默认值为false,代表关闭确定性计算。
export HCCL_DETERMINISTIC=false
- 推理场景
- 强化学习训推一体
环境变量
配置说明
配置socket建链超时等待时间,默认值为120,单位s。该场景下,建议根据网络规模大小适当调整建链超时等待时间。
export HCCL_CONNECT_TIMEOUT=1200
配置通信算法的编排展开位置。
该场景下建议保持默认值“HOST”,代表通信算法的编排展开位置为Host侧CPU。
export HCCL_OP_EXPANSION_MODE="HOST"
是否开启确定性计算,用户可以根据使用场景选择开启或关闭,默认值为false,代表关闭确定性计算。
export HCCL_DETERMINISTIC=false