多机场景下,执行HCCL Test测试工具时,报错误:“Fatal error in PMPI_Barrier: Unknown error class, error stack”,如下图所示。
1 2 3 4 5 6 7 8 9 10 | the minbytes is 8192, maxbytes is 4294967296, iters is 20, warmup_iters is 5 Fatal error in PMPI_Barrier: Unknown error class, error stack: PMPI_Barrier(425).... ......: MPI_Barrier(MPI_COMM_WORLD) failed MPIR_Barrier_impl(332)......: Failure during collective MPIR_Barrier_impl(327)......: MPIR_Barrier(292)...........: MPIR_Barrier_intra(150).....: barrier_smp_intra(96).....: MPIR_Barrier_impl(332)......: Failure during collective ... ... |
HCCL Test测试场景,要求所有机器的Host网卡两两ping通,此问题一般是由于某台机器的Host IP与其他机器网络不通导致。
可通过二分的方法,逐步添加机器进行测试,当添加到某台机器报错时,可登录此机器,然后ping其他机器的Host IP,若不通,即确认是此机器网络原因。