昇腾社区首页
中文
注册

“bash:orted:未找到命令”错误

问题现象

集群场景下,执行mpirun命令时,报“bash: orted: 未找到命令”的错误,如下所示:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
bash: orted: 未找到命令
--------------------------------------------------------------------------
A daemon (pid 8793) died unexpectedly with status 127 while attempting
to launch so we are aborting.
 
There may be more information reported by the environment (see above).
 
This may be because the daemon was unable to find all the needed shared
libraries on the remote node. You may set your LD_LIBRARY_PATH to have the
location of the shared libraries on the remote nodes and this will
automatically be forwarded to the remote nodes.
--------------------------------------------------------------------------
--------------------------------------------------------------------------
mpirun noticed that the job aborted, but has no info as to the process
that caused that situation.

可能原因

集群中存在未退出的hccl_test进程。

解决方法

利用MPI的能力,终止残余的hccl_test进程。

  1. 准备好执行HCCL Test工具时配置的Hostfile文件,即3中所定义的Hostfile文件,例如文件名为“hostfile”。
  2. 终止集群中所有节点上参与的hccl_test进程。
    • 安装MPICH的场景,命令示例如下:

      mpirun -f hostfile -n 512 pkill -9 -f "all_reduce_test|mpirun"

      • -f:MPICH命令参数,表示Hostfile节点列表文件。
      • -n:MPICH命令参数,表示需要终止的NPU总数,即节点数量*每个节点上参与训练的NPU个数,请根据实际情况修改。
      • pkill:Linux命令,紧跟的“-f”为pkill参数,用于指定要匹配的进程名或命令行参数的模式,其中命令示例中的“all_reduce_test”是之前执行的HCCL测试命令,请根据实际执行的命令进行修改。
    • 安装Open MPI的场景,命令示例如下:

      mpirun -hostfile hostfile -n 512 pkill -9 -f "all_reduce_test|openmpi"

      • -hostfile:Open MPI命令参数,表示Hostfile节点列表文件。
      • -n:Open MPI命令参数,表示需要终止的NPU总数,即节点数量*每个节点上参与训练的NPU个数,请根据实际情况修改。
      • pkill:Linux命令,紧跟的“-f”为pkill参数,用于指定要匹配的进程名或命令行参数的模式,其中命令示例中的“all_reduce_test”是之前执行的HCCL测试命令,请根据实际执行的命令进行修改。
  3. 以上步骤执行完成后,再次执行HCCL Test工具进行测试即可。