工具介绍
适用场景
分布式训练场景下,开发者可以通过此工具测试HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能。
此工具仅支持基于HCCL单算子API实现集合通信的网络性能测试。
工具源码包获取
安装完CANN Toolkit软件包后,HCCL性能测试工具源码存放${INSTALL_DIR}/tools/hccl_test路径下,${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。若安装的Ascend-cann-toolkit软件包,以root安装举例,则安装后文件存储路径为:/usr/local/Ascend/ascend-toolkit/latest。
使用前需要参考下面的章节进行工具的编译。
支持的产品型号
Atlas 300I Duo 推理卡
约束说明
- 针对
Atlas 训练系列产品 ,HCCL性能测试工具最大支持集群组网包含4096张卡的场景。 - 针对
Atlas A2 训练系列产品 ,HCCL性能测试工具最大支持集群组网包含32K张卡的场景。 - 针对
Atlas A3 训练系列产品/Atlas A3 推理系列产品 ,HCCL性能测试工具最大支持集群组网包含32K张卡的场景。
背景知识
- 集合通信带宽
集合通信带宽指的是“算法带宽”,即“执行某集合通信操作时的数据量/耗时”。
例如单机8卡做allreduce操作,则“数据量”除以“做完allreduce的耗时”就是allreduce算子执行的算法带宽。
使用HCCL性能测试工具进行测试时,带宽数据即指的“算法带宽”。
影响算法带宽的主要因素有:- Server间的RDMA带宽(RoCE链路)。
- Server内卡间SDMA通信带宽(HCCS链路)。
- PCIe链路带宽。
- 通信算法自身编排实现。
- 物理带宽
集群中的物理带宽包括HCCS链路物理带宽以及RoCE链路物理带宽,物理带宽是影响算法带宽的一个因素。