工具介绍
适用场景
分布式训练场景下,开发者可以通过此工具测试HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能。
此工具仅支持基于HCCL单算子API实现集合通信的网络性能测试。
环境准备
- HCCL性能测试工具的编译运行依赖CANN开发套件包( Ascend-cann-toolkit)与算子包(Ascend-cann-ops),所以使用此工具前请确保环境中已部署好CANN相关软件包,详细安装请参见《CANN 软件安装指南》。
- HCCL性能测试工具源码存放在${INSTALL_DIR}/tools/hccl_test路径下,${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。以root用户安装为例,安装后文件默认存储路径为:/usr/local/Ascend/cann。
支持的产品
Atlas 350 加速卡
针对
针对
约束说明
- 针对Atlas 350 加速卡,HCCL性能测试工具最大支持集群组网包含32K的通信rank的场景。
- 针对
Atlas A3 训练系列产品 /Atlas A3 推理系列产品 ,HCCL性能测试工具最大支持集群组网包含32K的通信rank的场景。针对AlltoAll、AlltoAllV算子,HCCL性能测试工具最大支持集群组网包含8K的通信rank的场景。
- 针对
Atlas A2 训练系列产品 /Atlas A2 推理系列产品 ,HCCL性能测试工具最大支持集群组网包含32K的通信rank的场景。 - 针对
Atlas 训练系列产品 ,HCCL性能测试工具最大支持集群组网包含4096的通信rank的场景。
背景知识
集合通信带宽指的是“算法带宽”,即“执行某集合通信操作时的数据量/耗时”。
例如单机8卡做allreduce操作,则“数据量”除以“做完allreduce的耗时”就是allreduce算子执行的算法带宽。
使用HCCL性能测试工具进行测试时,带宽数据即指的“算法带宽”。
影响算法带宽的主要因素有:通信链路物理带宽以及通信算法自身的编排实现。