host ip之间两两不通报MPI错误

问题现象

多机场景下,执行HCCL Test测试工具时,报错误:“Fatal error in PMPI_Barrier: Unknown error class, error stack”,如下图所示。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
the minbytes is 8192, maxbytes is 4294967296, iters is 20, warmup_iters is 5
Fatal error in PMPI_Barrier: Unknown error class, error stack:
PMPI_Barrier(425).... ......: MPI_Barrier(MPI_COMM_WORLD) failed
MPIR_Barrier_impl(332)......: Failure during collective
MPIR_Barrier_impl(327)......:
MPIR_Barrier(292)...........:
MPIR_Barrier_intra(150).....:
barrier_smp_intra(96).....:
MPIR_Barrier_impl(332)......: Failure during collective
... ...

原因分析

HCCL Test测试场景,要求所有机器的Host网卡两两ping通,此问题一般是由于某台机器的Host IP与其他机器网络不通导致。

解决步骤

  1. 定位到网络不通的Host机器。

    可通过二分的方法,逐步添加机器进行测试,当添加到某台机器报错时,可登录此机器,然后ping其他机器的Host IP,若不通,即确认是此机器网络原因。

  2. 解决此机器与其他机器的Host IP无法ping通的问题。