TORCH_HCCL_ZERO_COPY
功能描述
训练或在线推理场景下,可通过此环境变量开启集合通信片内零拷贝功能,减少all_gather、reduce_scatter在通信过程中的片内拷贝次数,提升集合通信效率,降低通信耗时。同时在计算通信并行场景下,降低通信过程中对显存带宽的抢占。
- 0:关闭集合通信零拷贝功能
- 1:开启集合通信零拷贝功能
默认值为0。
配置示例
export TORCH_HCCL_ZERO_COPY=1
使用约束
- 该环境变量依赖Ascend Extension for PyTorch虚拟内存管理功能,参见PYTORCH_NPU_ALLOC_CONF,要求配置满足:
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
- 当前仅支持all_gather、reduce_scatter算子。
- 当集合通信的数据量小于32M时,即便开启该环境变量,零拷贝功能也不生效,依旧用非零拷贝方式进行通信。
- 此环境变量不支持在PyTorch图模式(TorchAir)场景下使用。
支持的型号
父主题: 集合通信