推荐业务配置
本节分别针对
Atlas A3 训练系列产品
/
Atlas A3 推理系列产品
- 训练场景
环境变量
配置说明
配置socket建链超时等待时间,默认值为120,单位s。该场景下,建议根据网络规模大小适当调整建链超时等待时间。export HCCL_CONNECT_TIMEOUT=1200
配置通信算法的编排展开位置。
该场景下建议保持默认值“AI_CPU”,代表通信算法的编排展开位置为AI CPU。
export HCCL_OP_EXPANSION_MODE="AI_CPU"
- 推理场景
部署方式
环境变量
配置说明
Prefill-Decode混合部署
配置通信算法的编排展开位置。
该场景下建议配置为“AIV”,代表通信算法的编排展开位置为Vector Core。
export HCCL_OP_EXPANSION_MODE="AIV"
是否开启确定性计算,用户可以根据使用场景选择开启或关闭,默认值为false,代表关闭确定性计算。
export HCCL_DETERMINISTIC=false
Prefill-Decode分离部署
仅使用LLM-DataDist作为集群管理组件的场景下,建议通过此环境变量配置超节点内使用RoCE链路进行通信;非LLM-DataDist场景,无需配置。
export HCCL_INTRA_ROCE_ENABLE=1
配置通信算法的编排展开位置。
该场景下建议配置为“AIV”,代表通信算法的编排展开位置为Vector Core。
export HCCL_OP_EXPANSION_MODE="AIV"
是否开启确定性计算,用户可以根据使用场景选择开启或关闭,默认值为false,代表关闭确定性计算。
export HCCL_DETERMINISTIC=false
- 强化学习训推一体
Atlas A2 训练系列产品
- 训练场景
环境变量
配置说明
配置socket建链超时等待时间,默认值为120,单位s。该场景下,建议根据网络规模大小适当调整建链超时等待时间。export HCCL_CONNECT_TIMEOUT=1200
配置通信算法的编排展开位置。
该场景下建议保持默认值“HOST”,代表通信算法的编排展开位置为Host侧CPU。
export HCCL_OP_EXPANSION_MODE="HOST"
是否开启确定性计算,用户可以根据使用场景选择开启或关闭,默认值为false,代表关闭确定性计算。
export HCCL_DETERMINISTIC=false
- 推理场景
- 强化学习训推一体
环境变量
配置说明
配置socket建链超时等待时间,默认值为120,单位s。该场景下,建议根据网络规模大小适当调整建链超时等待时间。
export HCCL_CONNECT_TIMEOUT=1200
配置通信算法的编排展开位置。
该场景下建议保持默认值“HOST”,代表通信算法的编排展开位置为Host侧CPU。
export HCCL_OP_EXPANSION_MODE="HOST"
是否开启确定性计算,用户可以根据使用场景选择开启或关闭,默认值为false,代表关闭确定性计算。
export HCCL_DETERMINISTIC=false
