昇腾社区首页
中文
注册
开发者
下载

工具介绍

适用场景

分布式训练场景下,开发者可以通过此工具测试HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能。

此工具仅支持基于HCCL单算子API实现集合通信的网络性能测试。

环境准备

  • HCCL性能测试工具的编译运行依赖CANN开发套件包( Ascend-cann-toolkit)与算子包(Ascend-cann-ops),所以使用此工具前请确保环境中已部署好CANN相关软件包,详细安装请参见《CANN 软件安装指南》
  • HCCL性能测试工具源码存放在${INSTALL_DIR}/tools/hccl_test路径下,${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。以root用户安装为例,安装后文件默认存储路径为:/usr/local/Ascend/cann。

支持的产品

Atlas 350 加速卡

Atlas A3 训练系列产品/Atlas A3 推理系列产品

Atlas A2 训练系列产品/Atlas A2 推理系列产品

Atlas 训练系列产品

Atlas 推理系列产品

针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,仅支持Atlas 800I A2 推理服务器、Atlas 300I A2 推理卡、A200I A2 Box 异构组件。

针对Atlas 推理系列产品,仅支持Atlas 300I Duo 推理卡

约束说明

  • 针对Atlas 350 加速卡,HCCL性能测试工具最大支持集群组网包含32K的通信rank的场景。
  • 针对Atlas A3 训练系列产品/Atlas A3 推理系列产品,HCCL性能测试工具最大支持集群组网包含32K的通信rank的场景。

    针对AlltoAll、AlltoAllV算子,HCCL性能测试工具最大支持集群组网包含8K的通信rank的场景。

  • 针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,HCCL性能测试工具最大支持集群组网包含32K的通信rank的场景。
  • 针对Atlas 训练系列产品,HCCL性能测试工具最大支持集群组网包含4096的通信rank的场景。

背景知识

集合通信带宽指的是“算法带宽”,即“执行某集合通信操作时的数据量/耗时”。

例如单机8卡做allreduce操作,则“数据量”除以“做完allreduce的耗时”就是allreduce算子执行的算法带宽。

使用HCCL性能测试工具进行测试时,带宽数据即指的“算法带宽”。

影响算法带宽的主要因素有:通信链路物理带宽以及通信算法自身的编排实现。