集合通信库HCCL(Huawei Collective Communication Library)是基于昇腾AI处理器的高性能集合通信库,提供单机多卡以及多机多卡间的数据并行、模型并行集合通信方案。
HCCL支持AllReduce、Broadcast、AllGather、ReduceScatter、AlltoAll等通信原语,Ring、Mesh、Halving-Doubling(HD)等通信算法,基于HCCS、RoCE和PCIe高速链路实现集合通信。
Atlas 训练系列产品
Atlas A2 训练系列产品
Atlas 300I Duo 推理卡
HCCL提供了Python与C两种语言的接口,其中Python语言的接口用于实现图模式下的框架适配,例如TensorFlow网络基于HCCL的Python API实现分布式优化;C语言接口用于实现单算子模式下的框架适配,例如HCCL单算子API嵌入到PyTorch后端代码中,PyTorch用户直接使用PyTorch原生集合通信API,即可实现分布式能力。
分布式场景中,HCCL提供了服务器间高性能集合通信功能,其通信流程如图2所示。
建立通信连接阶段,HCCL根据用户提供的集群信息并结合网络拓扑与其他NPU设备建链,交换用于通信的参数信息。如果在指定时间内(建链超时时间,默认120s,可通过环境变量HCCL_CONNECT_TIMEOUT配置)未得到其他NPU设备的及时响应,会上报建链超时错误并退出业务进程。
通信操作执行阶段,HCCL会根据通信算法编排通知、内存访问等任务,并通过运行时管理组件下发给昇腾设备任务调度器,设备根据编排信息调度并执行任务。