昇腾社区首页
中文
注册

多台机器MPI版本不一致问题

问题现象

多机场景下,HCCL Test测试工具执行过程中发生概率性失败,coredump等随机问题。

原因分析

可能是多台机器的MPI软件版本不一致导致,可通过如下命令查询MPI软件版本:

which mpirun find / -name mpirun

解决步骤

当前版本,如果通信网卡使用IPv4协议,建议安装MPI 3.2.1版本;如果通信网卡使用IPv6协议,建议安装Open MPI-4.1.5版本。

且所有机器的MPI软件版本需要保持一致。