昇腾社区首页
中文
注册

结果说明

HCCL Test工具执行完成后,回显如下所示:

图1 HCCL Test工具执行结果示例
各字段含义如下:
  • data_size:单个NPU上参与集合通信的数据量,单位为Bytes。
  • aveg_time:集合通信算子执行耗时,单位为us。
  • alg_bandwidth:集合通信算子执行带宽,单位为GB/s。
  • check_result:集合通信算子执行结果校验标识,取值为:success、failed、NULL。
    • 若执行工具时“-c”参数配置为“0”,即未开启结果校验,check_result状态为NULL。
    • 当算子计算结果出现溢出时,不会开启结果校验,check_result状态为NULL。

      当前版本AllReduce、ReduceScatter、Reduce三个算子会出现结果溢出,溢出的场景主要包括:

      • 操作类型是乘的时候,当2的n次方(n是总卡数)超过数据类型最大值时溢出。
      • 操作类型是加的时候,当2*n(n是总卡数)超过数据类型最大值时溢出。