昇腾社区首页
中文
注册
开发者
下载

推荐业务配置

本节分别针对 Atlas A3 训练系列产品 / Atlas A3 推理系列产品 Atlas A2 训练系列产品 的常见业务场景,提供推荐的业务配置。

本节仅给出了推荐配置环境变量的功能说明和配置示例,详细使用说明可参见环境变量参考“集合通信”章节。

Atlas A3 训练系列产品 / Atlas A3 推理系列产品

  • 训练场景

    环境变量

    配置说明

    HCCL_CONNECT_TIMEOUT

    配置socket建链超时等待时间,默认值为120,单位s。该场景下,建议根据网络规模大小适当调整建链超时等待时间。
    export HCCL_CONNECT_TIMEOUT=1200

    HCCL_OP_EXPANSION_MODE

    配置通信算法的编排展开位置。

    该场景下建议保持默认值“AI_CPU”,代表通信算法的编排展开位置为AI CPU。

    export HCCL_OP_EXPANSION_MODE="AI_CPU"

    训练场景下常用通信算子的支持情况可参见训练场景常用通信算子

  • 推理场景

    部署方式

    环境变量

    配置说明

    Prefill-Decode混合部署

    HCCL_OP_EXPANSION_MODE

    配置通信算法的编排展开位置。

    该场景下建议配置为“AIV”,代表通信算法的编排展开位置为Vector Core。

    export HCCL_OP_EXPANSION_MODE="AIV"

    HCCL_DETERMINISTIC

    是否开启确定性计算,用户可以根据使用场景选择开启或关闭,默认值为false,代表关闭确定性计算。

    export HCCL_DETERMINISTIC=false

    Prefill-Decode分离部署

    HCCL_INTRA_ROCE_ENABLE

    仅使用LLM-DataDist作为集群管理组件的场景下,建议通过此环境变量配置超节点内使用RoCE链路进行通信;非LLM-DataDist场景,无需配置。

    export HCCL_INTRA_ROCE_ENABLE=1

    HCCL_OP_EXPANSION_MODE

    配置通信算法的编排展开位置。

    该场景下建议配置为“AIV”,代表通信算法的编排展开位置为Vector Core。

    export HCCL_OP_EXPANSION_MODE="AIV"

    HCCL_DETERMINISTIC

    是否开启确定性计算,用户可以根据使用场景选择开启或关闭,默认值为false,代表关闭确定性计算。

    export HCCL_DETERMINISTIC=false

    推理场景下常用通信算子的支持情况可参见推理场景常用通信算子

  • 强化学习训推一体

    环境变量

    配置说明

    HCCL_CONNECT_TIMEOUT

    配置socket建链超时等待时间,默认值为120,单位s。该场景下,建议根据网络规模大小适当调整建链超时等待时间。

    export HCCL_CONNECT_TIMEOUT=1200

    HCCL_OP_EXPANSION_MODE

    配置通信算法的编排展开位置。

    该场景下建议保持默认值“AI_CPU”,代表通信算法的编排展开位置为AI CPU。

    export HCCL_OP_EXPANSION_MODE="AI_CPU"

    需要注意:

    针对推理通信域,需要通过通信域级别的配置参数将推理通信域的算法编排展开位置设置为“Vector Core”,针对PyTorch框架网络,可通过“hccl_op_expansion_mode”参数配置,配置方法如下:

    options = torch_npu._C._distributed_c10d.ProcessGroupHCCL.Options()
    options.hccl_config ={"hccl_op_expansion_mode":3}
    torch.distributed.init_process_group(backend="hccl", pg_options=options)

    PyTorch框架参数的详细介绍可参见通过pg_options配置HCCL通信域参数

    HCCL_DETERMINISTIC

    是否开启确定性计算,用户可以根据使用场景选择开启或关闭,默认值为false,代表关闭确定性计算。

    export HCCL_DETERMINISTIC=false

Atlas A2 训练系列产品

  • 训练场景

    环境变量

    配置说明

    HCCL_CONNECT_TIMEOUT

    配置socket建链超时等待时间,默认值为120,单位s。该场景下,建议根据网络规模大小适当调整建链超时等待时间。
    export HCCL_CONNECT_TIMEOUT=1200

    HCCL_OP_EXPANSION_MODE

    配置通信算法的编排展开位置。

    该场景下建议保持默认值“HOST”,代表通信算法的编排展开位置为Host侧CPU。

    export HCCL_OP_EXPANSION_MODE="HOST"

    HCCL_DETERMINISTIC

    是否开启确定性计算,用户可以根据使用场景选择开启或关闭,默认值为false,代表关闭确定性计算。

    export HCCL_DETERMINISTIC=false
  • 推理场景

    环境变量

    配置说明

    HCCL_OP_EXPANSION_MODE

    配置通信算法的编排展开位置。

    该场景下建议保持默认值“HOST”,代表通信算法的编排展开位置为Host侧CPU。

    export HCCL_OP_EXPANSION_MODE="HOST"

    HCCL_DETERMINISTIC

    是否开启确定性计算,用户可以根据使用场景选择开启或关闭,默认值为false,代表关闭确定性计算。

    export HCCL_DETERMINISTIC=false
  • 强化学习训推一体

    环境变量

    配置说明

    HCCL_CONNECT_TIMEOUT

    配置socket建链超时等待时间,默认值为120,单位s。该场景下,建议根据网络规模大小适当调整建链超时等待时间。

    export HCCL_CONNECT_TIMEOUT=1200

    HCCL_OP_EXPANSION_MODE

    配置通信算法的编排展开位置。

    该场景下建议保持默认值“HOST”,代表通信算法的编排展开位置为Host侧CPU。

    export HCCL_OP_EXPANSION_MODE="HOST"

    HCCL_DETERMINISTIC

    是否开启确定性计算,用户可以根据使用场景选择开启或关闭,默认值为false,代表关闭确定性计算。

    export HCCL_DETERMINISTIC=false