昇腾社区首页
中文
注册
开发者
下载

结果说明

HCCL Test工具执行完成后,回显如下所示:

图1 HCCL Test工具执行结果示例
各字段含义如下:
  • data_size:单个NPU上参与集合通信的数据量,单位为Bytes。
  • aveg_time:集合通信算子执行耗时,单位为us。
  • alg_bandwidth:集合通信算子执行带宽,单位为GB/s。

    说明:此处的集合通信算子执行带宽指的是算法带宽,计算方式为:“集合通信数据量/耗时”。

  • check_result:集合通信算子执行结果校验标识,取值为:success、failed、NULL。
    • 若执行工具时“-c”参数配置为“0”,即未开启结果校验,check_result状态为NULL。
    • 当算子计算结果出现溢出或超出可精确表达的数值范围时,不会开启结果校验,check_result状态为NULL。
      HCCL Test工具通过将算子输入初始化为固定值,并检验算子输出是否符合预期来判断通信结果是否正确。由于计算机数值表达范围和表达精度有限,针对某些操作,如果卡数过多,可能会出现结果溢出或超出可精确表达的数值范围的情况,导致HCCL Test工具无法准确校验,此种情况check_result状态会显示为NULL。
      • 针对归约类算子,乘与加操作在不同的算子类型与数据类型下,结果校验所能支持的最大卡数如下表所示:

        操作类型

        算子类型

        数据类型

        INT8

        INT16

        INT32

        INT64

        FP32

        FP16

        BF16

        乘(Prod)

        AllReduce

        6

        14

        30

        62

        127

        15

        127

        Reduce

        ReduceScatter

        加(Sum)

        AllReduce

        63

        16383

        ~1e9

        ~1e18

        ~1e6

        511

        63

        Reduce

        ReduceScatter

        11

        181

        46340

        ~1e9

        2896

        31

        11

        ReduceScatterV

        11

        181

        46340

        ~1e9

        2896

        31

        11

      • 针对AllGather、AllGatherV、AlltoAll、AlltoAllV、AlltoAllVC、Scatter算子,当数据类型是int8或uint8时,最大支持的卡数为127。