安装MindX DL组件前配置

批量安装MindX DL组件前需要参考以下操作完成配置。单机安装请跳过本章节。

当K8S集群规模比较大的时候,可进行分批部署。分批部署时,除按照本章节进行inventory_file配置外,还需要在进行全局变量配置时,第二批及以后场景需将SCALE参数设置为true。

使用约束

部署前检查

配置inventory_file文件

  1. 登录Ascend Deployer所在服务器。
  2. 在Ascend Deployer所在服务器上配置待安装设备的IP地址、用户名。

    进入ascend-deployer/ascend_deployer目录,编辑inventory_file文件,添加完成后执行:wq保存退出。格式参考如下(配置master节点的主机为K8s的默认控制节点):

    1. 执行集群训练前,训练节点须进行hccn_tool网络配置,参考步骤 1仅修改配置hccn变量区域。
    2. master和worker变量配置区域
      表1 主机分组配置说明

      需要配置的主机分组

      是否可选

      master

      必选,master个数必须为奇数

      worker

      必选

      [master] 
      xx.xx.xx.xx ansible_ssh_user="root" set_hostname="master-1" k8s_api_server_ip=xx.xx.xx.xx
      [worker]
      xx.xx.xx.xx ansible_ssh_user="root" set_hostname="worker-1"
      表2 主机分组变量配置参数说明

      字段

      是否可选

      说明

      IP

      必选

      服务器的IP地址。

      ansible_ssh_user

      必选

      ssh登录远程服务器的账号,需要为root账号。

      ansible_ssh_pass

      可选

      ssh登录远程服务器账号的密码,如果配置了SSH密钥认证方式且root用户可以登录,则无需配置。

      ansible_ssh_port

      可选

      ssh连接的端口,使用默认值22端口时无需配置,如果使用了非默认的其他端口,则需要配置。

      set_hostname

      可选,多master或多worker节点时必选,单节点时可选

      设置节点在K8s集群中的节点名,建议用“master-1”或“worker-1”的格式,按照顺序填充;如果已有K8s集群,则该名字需要为节点在K8s中的名字,必须配置为小写,不可随意填写。

      k8s_api_server_ip

      可选,master节点必须配置,worker节点不可配置

      K8s对外提供服务的入口,配置为master节点的IP地址。无论是单master、还是多master场景,k8s_api_server_ip参数必须配置为本机上已经存在的IP。

    3. 全局变量配置区域
      [all:vars] 
      SCALE="false"                               #DL分批部署时,第二批及以后场景需设置此参数值为true
      POD_NETWORK_CIDR="xx.xx.xx.xx/xx" 
      KUBE_SERVICE_CIDR="xx.xx.xx.xx/xx"
      KUBE_VIP="" 
      HARBOR_SERVER="" 
      HARBOR_ADMIN_USER="" 
      HARBOR_ADMIN_PASSWORD="" 
      HARBOR_PUBLIC_PROJECT="false" 
      HARBOR_CA_FILE=""

      表3 全局变量配置参数说明

      字段

      是否可选

      说明

      SCALE

      可选

      用于决定是否进行分批部署的可选参数。

      默认值为false,不进行分批部署。

      当K8S集群规模比较大的时候,可进行分批部署。第二批及之后场景需设置此参数值为true。

      POD_NETWORK_CIDR

      必选

      K8s集群使用的子网IP网段,如果与服务器IP网段重合,需要修改为其他私有网段。默认值为192.168.0.0/16。

      lPV6地址配置时请按照网络规划进行配置,建议选择地址段范围为"FEC0:2::/64"。

      说明:

      请保证节点的IP与K8s默认集群网段(192.168.0.0/16)没有冲突,如果冲突,请修改POD_NETWORK_CIDR参数为其他私有网段,如:10.0.0.0/16。

      KUBE_SERVICE_CIDR

      必选

      K8s集群使用的Service地址段(默认为10.96.0.0/12),Service是Kubernetes内的概念,对应的是Service类型为ClusterlP时Service使用的地址,每个Service有自己的地址。

      配置网段时,请注意:

      • Service地址只在Kubernetes集群内使用,不能在集群外使用。
      • Service地址段不能和虚拟交换机地址段重叠。
      • Service地址段不能和Pod虚拟交换机地址段重叠。

      lPV6地址配置时请按照网络规划进行配置,建议选择地址段范围为"FEC0:1::/108"。

      KUBE_VIP

      可选

      多master场景下必须配置虚拟IP,kube_vip需跟K8s集群节点IP在同一子网,且为闲置、未被他人使用的IP。

      HARBOR_SERVER

      可选,使用Harbor服务时必选

      使用Harbor镜像仓时配置的Harbor服务地址,格式为<ip>:<port>,不含协议。

      HARBOR_ADMIN_USER

      HARBOR_ADMIN_PASSWORD

      可选,使用Harbor服务时必选

      配置Harbor管理员账号信息,用于在Harbor中创建项目以推送拉取K8s和MindX DL相关镜像。

      HARBOR_PUBLIC_PROJECT

      可选,使用Harbor服务时必选

      Harbor中MindX DL相关镜像的项目公开状态,可选值“false”“true”

      HARBOR_CA_FILE

      可选

      使用https协议时,可配置Harbor镜像仓根CA文件路径。不配置该参数时,默认值为“no”。

      RUNNER_IP

      可选

      可配置为执行Ascend Deployer所在设备的IP地址,请注意该IP需与其他待安装设备互通。建议在执行机含有多网段多个本机IP时配置该字段。

    • Atlas A2 训练系列产品上,IP、k8s_api_server_ip、POD_NETWORK_CIDR、KUBE_SERVICE_CIDR支持配置IPv4和IPv6两种类型的IP地址,用户使用PuTTY等SSH客户端连接执行机的IP地址和inventory_file文件中配置的IP地址类型需要保持统一,均为IPv4或IPv6。其他设备仅支持配置为IPv4地址。
    • inventory_file文件中支持指定ansible_ssh_pass字段配置其他待安装设备的密码进行SSH密码认证,若已使用SSH密钥认证方式连接,则无需再配置。