昇腾社区首页
中文
注册

TORCH_HCCL_ZERO_COPY

功能描述

训练或在线推理场景下,可通过此环境变量开启集合通信片内零拷贝功能,减少all_gather、reduce_scatter在通信过程中的片内拷贝次数,提升集合通信效率,降低通信耗时。同时在计算通信并行场景下,降低通信过程中对显存带宽的抢占。

  • 0:关闭集合通信零拷贝功能
  • 1:开启集合通信零拷贝功能

默认值为0。

配置示例

export TORCH_HCCL_ZERO_COPY=1

使用约束

  • 该环境变量依赖Ascend Extension for PyTorch虚拟内存管理功能,参见PYTORCH_NPU_ALLOC_CONF,要求配置满足:
    export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
  • 当前仅支持all_gather、reduce_scatter算子。
  • 当集合通信的数据量小于32M时,即便开启该环境变量,零拷贝功能也不生效,依旧用非零拷贝方式进行通信。
  • 此环境变量不支持在PyTorch图模式(TorchAir)场景下使用。

支持的型号

Atlas A3 训练系列产品