HCCL_OP_EXPANSION_MODE

功能描述

此环境变量用于配置通信算法的编排展开位置,支持如下取值:
  • AI_CPU:代表通信算法的编排展开位置在Device侧的AI CPU计算单元。

    该配置项当前仅支持单机单通信域场景,仅支持AllReduce算子,通信算子支持的数据类型可参见HcclAllReduce

    如果配置了通信算法的编排展开位置为“AI_CPU”,通信算子不再支持profiling性能数据采集与分析功能。

  • AIV: 代表通信算法的编排展开位置在Device的AI Vector Core计算单元。

    该配置项当前仅对单机通信中的AllReduce算子有效,数据类型仅支持int8、int16、int32、float16、float32、bfp16,且reduce的操作类型仅支持sum、max、min。

    注意:HCCL_DETERMINISTIC环境变量配置为“true”,则此配置项不再生效,以确定性计算为准。

  • 默认为空:保持原有算法编排位置。

    针对静态shape图,通信算法的编排展开位置在Device侧;动态shape图和单算子模式,通信算法的编排展开位置在Host侧。

配置示例

export HCCL_OP_EXPANSION_MODE="AI_CPU"

是否必选

使用约束

支持的型号

Atlas 300I Duo 推理卡

Atlas 800T A2 训练服务器

Atlas 900 A2 PoD 集群基础单元

Atlas 200T A2 Box16异构子框