执行HCCL Test测试命令时,返回“return code 11”错误,例如:
1 | hccl interface return err ./common/src/hccl_test_common.cc:499, retcode: 11 |
HCCL Test测试命令中配置的卡数与实际的卡数不一致。如下所示为错误命令示例:
mpirun -n 16 ./bin/all_reduce_test -b 8K -e 1G -f 2 -d int8 -o sum -p 8 -c 0
示例命令错误的原因为:这是一个单机测试命令,“ -n 16”说明要启动的NPU总数为16个, “-p 8 ”单个节点上参与训练的NPU个数为8,这个节点的实际卡数达不到配置中的NPU总数16。
修改测试命令,检查“-n”与“-p”的NPU个数(进程数)是否配置正确。