执行HCCL Test测试命令时,返回“return code 11”错误,例如:
“hccl interface return errreturn err ./common/src/hccl_test_common.cc:499, retcode: 11”
HCCL Test测试命令中配置的卡数与实际的卡数不一致。如下错误命令所示:
mpirun -n 16 ./bin/all_reduce_test -b 8K -e 1G -f 2 -d int8 -o sum -p 8 -c 0
-n:需要启动的NPU总数。
-p:单个计算节点上参与训练的NPU个数。
示例命令错误的原因为:这是一个单机测试命令,“ -n 16”说明要启动NPU总数为16个, “-p 8 ”单个节点参与训练NPU为8,导致这个节点的卡数不够总共要启动的卡数。
修改测试命令,检查“-n”是否与“-p”的NPU个数(进程数)是否书写正确。
-n 需要启动的NPU总数
-p 单个计算节点上参与训练的NPU个数