HCCL Test工具执行完成后,回显如下所示:
HCCL Test工具通过将算子输入初始化为固定值,并检验算子输出是否符合预期来判断通信结果是否正确。由于计算机数值表达范围和表达精度有限,针对归约类算子的乘法与加法操作,如果卡数过多,可能会出现结果溢出或超出可精确表达的数值范围的情况,导致无法准确校验,此种情况check_result状态会显示为NULL。针对归约类算子,乘与加操作在不同的算子类型与数据类型下,结果校验所能支持的最大卡数如下表所示:
操作类型 |
算子类型 |
数据类型 |
||||||
---|---|---|---|---|---|---|---|---|
INT8 |
INT16 |
INT32 |
INT64 |
FP32 |
FP16 |
BF16 |
||
乘(prod) |
AllReduce |
6 |
14 |
30 |
62 |
127 |
15 |
127 |
Reduce |
||||||||
ReduceScatter |
||||||||
加(sum) |
AllReduce |
63 |
16383 |
~1e9 |
~1e18 |
~1e6 |
511 |
63 |
Reduce |
||||||||
ReduceScatter |
11 |
181 |
46340 |
~1e9 |
2896 |
31 |
11 |