多机场景下,执行HCCL Test测试工具时,报如下错误:
ssh:connect to host xx.xx.xx.xx port 22: Connection time out
此错误原因是测试主机无法远程登录到其他所有机器导致。
多机测试场景,需要配置操作节点到集群通信所有节点的SSH信任关系,以支持集群通信节点远程登录。
ssh-keygen -t rsa
例如密钥信息生成后,存储在/root/.ssh/id_rsa.pub文件中。
ssh-copy-id -i /root/.ssh/id_rsa.pub node1_address ssh-copy-id -i /root/.ssh/id_rsa.pub node2_address