CentOS操作系统

NFS网络文件系统,它允许网络中的计算机之间共享资源。在集群调度场景下,需要依赖NFS环境实现训练任务或推理任务的正常运行。NFS可以安装在服务器端或者客户端,用户可以根据需要进行选择。

在服务器端安装

  1. 使用管理员帐号登录存储节点,执行以下命令安装NFS服务端。

    yum install nfs-utils -y

  2. 根据实际情况固定NFS相关端口并配置相关端口的防火墙。
  3. 执行以下命令,创建一个共享目录(如“/data/atlas_dls”)并修改目录权限。

    mkdir -p /data/atlas_dls
    chmod 750 /data/atlas_dls/

  4. 执行vi /etc/exports命令,在文件末尾追加以下内容,根据需要配置允许的IP地址并加固相关权限设置。

    /data/atlas_dls 业务IP地址(配置必要的权限)

  5. 执行以下命令,启动rpcbind。

    systemctl restart rpcbind.service
    systemctl enable rpcbind

  6. 执行以下命令,查看rpcbind是否已启动。

    systemctl status rpcbind

    出现以下回显,说明服务正常。

    ● rpcbind.service - RPC bind service
       Loaded: loaded (/usr/lib/systemd/system/rpcbind.service; enabled; vendor preset: enabled)
       Active: active (running) since Fri 2024-01-15 15:54:44 CST; 28s ago
     Main PID: 63008 (rpcbind)
       CGroup: /system.slice/rpcbind.service
               └─63008 /sbin/rpcbind -w
    
    
    Jan 15 15:54:44 centos39 systemd[1]: Starting RPC bind service...
    Jan 15 15:54:44 centos39 systemd[1]: Started RPC bind service.

  7. rpcbind启动后,执行以下命令,启动NFS服务。

    systemctl restart nfs-server.service 
    systemctl enable nfs-server 

  8. 执行以下命令,查看NFS服务是否已启动。

    systemctl status nfs-server.service 

    出现以下回显,说明服务正常。若NFS服务启动失败,可以参见df –h执行失败,NFS启动失败章节进行处理。

    ● nfs-server.service - NFS server and services
       Loaded: loaded (/usr/lib/systemd/system/nfs-server.service; enabled; vendor preset: disabled)
      Drop-In: /run/systemd/generator/nfs-server.service.d
               └─order-with-mounts.conf
       Active: active (exited) since Fri 2024-01-15 15:56:15 CST; 8s ago
     Main PID: 67145 (code=exited, status=0/SUCCESS)
       CGroup: /system.slice/nfs-server.service
    
    
    Jan 15 15:56:15 centos39 systemd[1]: Starting NFS server and services...
    Jan 15 15:56:15 centos39 systemd[1]: Started NFS server and services.

  9. 执行以下命令,查看共享目录(如“/data/atlas_dls”)挂载权限。

    cat /var/lib/nfs/etab

    出现以下回显,说明服务正常。

    /data/atlas_dls *(rw,...会显示配置的对应权限)

在客户端安装

  1. 使用管理员帐号登录其他服务器,执行以下命令安装NFS客户端。

    yum install nfs-utils -y

  2. 执行以下命令,启动rpcbind。

    systemctl restart rpcbind.service
    systemctl enable rpcbind

  3. 执行以下命令,查看rpcbind是否启动。

    systemctl status rpcbind

    出现以下回显,说明服务正常。

    ● rpcbind.service - RPC Bind
       Loaded: loaded (/usr/lib/systemd/system/rpcbind.service; enabled; vendor preset: enabled)
       Active: active (running) since Thu 2024-03-14 04:59:22 EDT; 8s ago
         Docs: man:rpcbind(8)
     Main PID: 1681425 (rpcbind)
        Tasks: 1 (limit: 3355442)
       Memory: 956.0K
       CGroup: /system.slice/rpcbind.service
               └─1681425 /usr/bin/rpcbind -w -f
    Mar 14 04:59:22 localhost.localdomain systemd[1]: Starting RPC Bind...
    Mar 14 04:59:22 localhost.localdomain systemd[1]: Started RPC Bind.

  4. rpcbind启动后,执行以下命令,启动NFS服务。

    systemctl restart nfs-server.service 
    systemctl enable nfs-server

  5. 执行以下命令,查看NFS服务是否启动。

    systemctl status nfs-server.service
    出现以下回显,说明服务正常。
    ● nfs-server.service - NFS server and services
       Loaded: loaded (/usr/lib/systemd/system/nfs-server.service; enabled; vendor preset: disabled)
      Drop-In: /run/systemd/generator/nfs-server.service.d
               └─order-with-mounts.conf
       Active: active (exited) since Thu 2024-03-14 04:59:40 EDT; 8s ago
     Main PID: 1681567 (code=exited, status=0/SUCCESS)
        Tasks: 0 (limit: 3355442)
       Memory: 0B
       CGroup: /system.slice/nfs-server.service
    Mar 14 04:59:39 localhost.localdomain systemd[1]: Starting NFS server and services...
    Mar 14 04:59:39 localhost.localdomain exportfs[1681536]: exportfs: Failed to stat /data/atlas_dls: No such file or directory
    Mar 14 04:59:40 localhost.localdomain systemd[1]: Started NFS server and services.