工具介绍
适用场景
分布式训练场景下,开发者可以通过此工具测试HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能。
此工具仅支持基于HCCL单算子API实现集合通信的网络性能测试。
环境准备
支持的产品
Atlas 350 加速卡
针对
针对
约束说明
- 针对Atlas 350 加速卡,HCCL性能测试工具最大支持集群组网包含32K的通信rank的场景。
- 针对
Atlas A3 训练系列产品 /Atlas A3 推理系列产品 ,HCCL性能测试工具最大支持集群组网包含32K的通信rank的场景。针对AlltoAll、AlltoAllV算子,HCCL性能测试工具最大支持集群组网包含8K的通信rank的场景。
- 针对
Atlas A2 训练系列产品 /Atlas A2 推理系列产品 ,HCCL性能测试工具最大支持集群组网包含32K的通信rank的场景。 - 针对
Atlas 训练系列产品 ,HCCL性能测试工具最大支持集群组网包含4096的通信rank的场景。
背景知识
集合通信带宽指的是“算法带宽”,即“执行某集合通信操作时的数据量/耗时”。
例如单机8卡做allreduce操作,则“数据量”除以“做完allreduce的耗时”就是allreduce算子执行的算法带宽。
使用HCCL性能测试工具进行测试时,带宽数据即指的“算法带宽”。
影响算法带宽的主要因素有:通信链路物理带宽以及通信算法自身的编排实现。