HCCL性能测试工具依赖MPI拉起多个进程,所以需要先安装MPI软件。
以下操作需要在每个参与集合通信的机器上执行。
下面分别介绍MPICH与Open MPI的安装配置流程,注意以下操作需要在每个参与集合通信的机器上执行。
MPICH软件包下载地址:Link。
获取到mpich-${version}.tar.gz后,执行如下命令解压缩软件包。
tar -zxvf mpich-${version}.tar.gz
${version}为MPICH的版本号。
cd mpich-${version} ./configure --disable-fortran --prefix=/usr/local/mpich
make && make install
以上命令执行完成后MPICH会安装在“/usr/local/mpich”路径下。
将运行环境的IP地址加入到“/etc/hosts”文件中,格式为“IP地址 主机名”,示例如下:
172.16.0.100 node3
其中“node3”为主机名。
注意如果是Euler OS操作系统,需要执行如下命令使更新后的“/etc/hosts”文件生效:
nmcli c reload
以下仅为操作示例:
ssh-keygen -t rsa
例如密钥信息生成后,存储在“/root/.ssh/id_rsa.pub”文件中。
示例如下,其中${nodeX_ip_address}是需要与操作节点通信的节点IP地址。
ssh-copy-id -i /root/.ssh/id_rsa.pub ${node3_ip_address} ssh-copy-id -i /root/.ssh/id_rsa.pub ${node4_ip_address}
参见Open MPI-4.1.5下载4.1.5版本的软件包,例如:openmpi-4.1.5.tar.gz,然后执行如下命令解压缩软件包。
tar -zxvf openmpi-4.1.5.tar.gz
解压缩后Open MPI源码存储在openmpi-4.1.5路径下。
cd openmpi-4.1.5
vi orte/mca/routed/radix/routed_radix_component.c
修改配置参数“mca_routed_radix_component.radix”的值为“集群中总卡数/单Server中卡数”,例如:
mca_routed_radix_component.radix = 1024;
保存退出。
vi orte/mca/plm/rsh/plm_rsh_component.c
修改配置参数“mca_plm_rsh_component.num_concurrent”的值为“集群中总卡数/单Server中卡数”,例如:
mca_plm_rsh_component.num_concurrent = 1024;
保存退出。
./configure --disable-fortran --enable-ipv6 --prefix=/usr/local/openmpi
make && make install
以上命令执行完成后Open MPI会安装在“/usr/local/openmpi”路径下。
将运行环境的IP地址加入到“/etc/hosts”文件中,格式为“IP地址 主机名”,示例如下:
172.16.0.100 node1 172.16.1.200 node2 fec0::b6ef:69dc:337d:9a12 node3 fec0::b6ef:998f:f3eb:4617 node4
注意如果是Euler OS操作系统,需要执行如下命令使更新后的“/etc/hosts”文件生效:
nmcli c reload
以下仅为操作示例:
ssh-keygen -t rsa
例如密钥信息生成后,存储在“/root/.ssh/id_rsa.pub”文件中。
ssh-copy-id -i /root/.ssh/id_rsa.pub ${node1_ipv4_address} ssh-copy-id -i /root/.ssh/id_rsa.pub ${node2_ipv4_address}
例如:
ssh-copy-id -i /root/.ssh/id_rsa.pub 172.16.0.100
ssh-copy-id -i /root/.ssh/id_rsa.pub ${node3_ipv6_address}%网卡名 ssh-copy-id -i /root/.ssh/id_rsa.pub ${node4_ipv6_address}%网卡名
例如:
ssh-copy-id -i /root/.ssh/id_rsa.pub fec0::b6ef:998f:f3eb:4617%enp189s0f0
export HYDRA_LAUNCHER_EXTRA_ARGS="-B 本节点的IPv6网卡名"