批量安装MindX组件及其依赖支持以下两种配置方式:
SCENE_NUM,1,EXTRA,,MEF,no,POD_NETWORK_CIDR,192.168.0.0/16,KUBE_VIP,,HARBOR_SERVER,,HARBOR_ADMIN_USER,,HARBOR_ADMIN_PASSWORD,,HARBOR_PUBLIC_PROJECT,false,HARBOR_CA_FILE,no #全局配置信息 *group,*ssh_host,*ssh_user,ssh_pass,ssh_become_pass,host_name,*k8s_api_server_ip,kube_interface,mode,device_netmask,detect_ip,device_ips #主机节点配置字段 master,10.10.10.10,root,password,,master,10.10.10.10,,,,, #主机节点配置信息 worker,10.10.10.11,root,password,,worker,10.10.10.11,,SMP,255.255.255.0,192.168.100.108,192.168.100.100/192.168.100.101/192.168.100.102/192.168.100.103/192.168.100.104/192.168.100.105/192.168.100.106/192.168.100.107 #主机节点配置信息
SCENE_NUM,1,EXTRA,,MEF,no,POD_NETWORK_CIDR,192.168.0.0/16,KUBE_VIP,,HARBOR_SERVER,,HARBOR_ADMIN_USER,,HARBOR_ADMIN_PASSWORD,,HARBOR_PUBLIC_PROJECT,false,HARBOR_CA_FILE,no,
参数 |
是否可选 |
说明 |
---|---|---|
SCENE_NUM |
必选 |
安装场景序号。
|
EXTRA |
可选 |
安装场景需要的可选组件,包括NPU-Exporter,NodeD和HCCL-Controller。安装脚本安装的组件由两部分组成,每个场景默认安装的组件加上EXTRA中配置的组件。组件间用逗号隔开,可选值:
|
MEF |
必选 |
安装MEF方式。
|
POD_NETWORK_CID |
必选 |
K8s集群使用的子网IP网段,如果与服务器IP网段重合,需要修改为其他私有网段。默认值为192.168.0.0/16。
说明:
请保证节点的IP与K8s默认集群网段(192.168.0.0/16)没有冲突,如果冲突,请修改POD_NETWORK_CIRD参数为其他私有网段,如:10.0.0.0/16。 |
KUBE_VIP |
可选 |
多master场景下配置虚拟IP,kube_vip需跟K8s集群节点IP在同一子网,且为闲置、未被他人使用的IP。 |
HARBOR_SERVER |
可选 |
使用Harbor镜像仓时配置的harbor服务地址,格式为ip:port,不含协议。 |
HARBOR_ADMIN_USER |
可选 |
配置Harbor管理员账号信息,用于在Harbor中创建项目以推送拉取K8s和MindX DL相关镜像。 |
HARBOR_ADMIN_PASSWORD |
可选 |
|
HARBOR_PUBLIC_PROJECT |
可选 |
Harbor中MindX DL相关镜像的项目公开状态,默认值为“false”私有,可选值“false”或“true”。 |
HARBOR_CA_FILE |
可选 |
使用https协议时,配置Harbor镜像仓根CA文件路径。默认值为“no”。 |
*group,*ssh_host,*ssh_user,ssh_pass,ssh_become_pass,host_name,*k8s_api_server_ip,kube_interface,mode,device_netmask,detect_ip,device_ips
master,10.10.10.10,root,password,,master,10.10.10.10,,,,, worker,10.10.10.11,root,password,,worker,10.10.10.11,,SMP,255.255.255.0,192.168.100.108,192.168.100.100/192.168.100.101/192.168.100.102/192.168.100.103/192.168.100.104/192.168.100.105/192.168.100.106/192.168.100.107 ....
在集群调度场景部署时,配置的master节点个数必须为奇数,如1,3,5...。
字段 |
是否可选 |
说明 |
---|---|---|
group |
必选 |
主机分组,目前支持“master”、“worker”、“other”和“mef”分组。每个分组根据需要可以设置多个节点,单节点根据需要可以设置多个主机分组,参考表3。
|
ssh_host |
必选 |
服务器的IP地址。 |
ssh_user |
必选 |
ssh远程登录服务器的账号,普通账号和root账号均可,但普通账号必须有sudo权限,且权限与root相近。 |
ssh_pass |
可选,SSH免密登录时无需配置 |
ssh远程登录服务器账号的密码,如果配置了免密登录且root用户可以登录,则无需配置。 |
ssh_become_pass |
可选,SSH免密登录时无需配置 |
普通账号执行sudo命令时输入的密码,与账号ssh登录时输入的密码一致。当ssh_user为root时,该项可为空。当ssh_user配置的是普通账号时,若“/etc/sudoers”中账号配置了“NOPASSWD”选项,则该变量可不设置,否则必须设置。 |
host_name |
可选 |
安装K8s时设置节点在K8s集群中的节点名,建议用“[a-z]-[0-9]”的格式;如果已有K8s集群,则该名字需要为节点在K8s中的名字,不可随意填写。 |
k8s_api_server_ip |
可选,master节点必须配置,worker节点不可配置 |
K8s对外提供服务的入口,配置为master节点的IP地址。无论是单master、还是多master场景,k8s_api_server_ip参数必须配置为本机上已经存在的IP。 |
kube_interface |
可选 |
对应服务器IP地址网卡名。单master场景下可以不设置,多master节点场景下每个master的kube_interface值必须为本机上已存在的网卡名。 |
mode |
可选,且仅worker节点为训练节点时可以配置 |
训练服务器的工作模式。取值可为“AMP”,“SMP”。如果训练节点未配置该变量,则必须配置。 |
device_netmask |
可选,且仅worker节点为训练节点时可以配置 |
RoCE网卡的子网掩码。如果训练节点未配置该变量,则必须配置。 |
detect_ip |
可选,且仅worker节点为训练节点时可以配置 |
RoCE网卡的检测对象IP。可配置单个IP后自动生成多个IP,也可以手动配置多个IP(最多为8个)。配置单个IP时默认该值为起始IP,配置多个IP时需以"/"分隔。如果训练节点未配置该变量,则必须配置。 |
device_ips |
可选,且仅worker节点为训练节点时可以配置 |
RoCE网卡的IP。可配置单个IP后自动生成多个IP,也可以手动配置多个IP(最多为8个),需选择和detect_ip相同的配置方式。配置单个IP时默认该值为起始IP,配置多个IP时需以"/"分隔。如果训练节点未配置该变量,则必须配置。 |
执行如下命令,打开并修改“/root/offline-deploy/inventory_file”文件。
cd /root/offline-deploy vi inventory_file
配置项包括主机变量配置、worker变量配置和全局变量配置三部分,详情见inventory_file文件内注释。
SCENE_NUM |
安装场景 |
需要配置的主机分组 |
是否可选 |
---|---|---|---|
1,2,3 |
配置K8s集群调度MindX DL的场景
|
master |
必选 |
worker |
必选 |
||
build_other_image |
可选,存在异构节点时需要配置。 在K8s集群部署前建议检查服务器架构,如果需要使用不同架构服务器,需在安装过程中配置异构分组。 |
||
4 |
安装MEF Center场景 |
master |
必选 |
mef |
必选 |
||
worker |
可选 |
配置信息示例如下(配置master节点的主机为K8s的默认控制节点):
[master] xx.xx.xx.xx ansible_ssh_user="test" ansible_become_password="test1234" set_hostname=master-1 k8s_api_server_ip=xx.xx.xx.xx kube_interface=enp125s0f0
字段 |
是否可选 |
说明 |
---|---|---|
IP |
必选 |
服务器的IP地址。 |
ansible_ssh_user |
必选 |
ssh登录远程服务器的账号,普通账号和root账号均可,但普通账号必须有sudo权限,且权限与root相近。 |
ansible_ssh_pass |
可选 |
ssh登录远程服务器账号的密码,如果配置了免密登录且root用户可以登录,则无需配置。 |
ansible_ssh_port |
可选 |
ssh连接的端口,使用默认值22端口时无需配置,如果使用了非默认的其他端口,则需要配置。 |
ansible_become_password |
可选 |
普通账号执行sudo命令时输入的密码,与账号ssh登录时输入的密码一致。root账号无须配置;如果ansible_ssh_user中配置的是普通账号时,若“/etc/sudoers”中账号配置了“NOPASSWD”选项,则该变量可不设置,否则必须设置。 |
set_hostname |
可选 |
设置节点在K8s集群中的节点名,建议用“[a-z]-[0-9]”的格式;如果已有K8s集群,则该名字需要为节点在K8s中的名字,不可随意填写。 |
k8s_api_server_ip |
可选,master节点必须配置,worker节点不可配置 |
K8s对外提供服务的入口,配置为master节点的IP地址。无论是单master、还是多master场景,k8s_api_server_ip参数必须配置为本机上已经存在的IP。 |
kube_interface |
可选 |
对应服务器IP地址网卡名,单master场景下可以不设置。多master场景下每个master的kube_interface参数的值必须为本机上已存在的网卡名。 |
参数 |
是否可选 |
说明 |
---|---|---|
user |
必选 |
用户名,默认取值为HwHiAiUser。 |
group |
必选 |
组名,默认取值为HwHiAiUser。 |
字段 |
是否可选 |
说明 |
---|---|---|
SCENE_NUM |
必选 |
安装场景选择,可选1,2,3,4场景。
|
EXTRA_COMPONENT |
可选 |
安装场景需要的可选组件。安装脚本安装的组件由两部分组成,每个场景默认安装的组件加上EXTRA_COMPONENT中配置的组件,组件间用逗号隔开,可选值:
|
POD_NETWORK_CID |
必选 |
K8s集群使用的子网IP网段,如果与服务器IP网段重合,需要修改为其他私有网段。默认值为192.168.0.0/16。
说明:
请保证节点的IP与K8s默认集群网段(192.168.0.0/16)没有冲突,如果冲突,请修改POD_NETWORK_CIRD参数为其他私有网段,如:10.0.0.0/16。 |
KUBE_VIP |
可选 |
多master场景下配置虚拟IP,kube_vip需跟K8s集群节点IP在同一子网,且为闲置、未被他人使用的IP。 |
HARBOR_SERVER |
可选 |
使用Harbor镜像仓时配置的harbor服务地址,格式为<ip>:<port>,不含协议。 |
HARBOR_ADMIN_USER HARBOR_ADMIN_PASSWORD |
可选 |
配置Harbor管理员账号信息,用于在Harbor中创建项目以推送拉取K8s和MindX DL相关镜像。 |
HARBOR_PUBLIC_PROJECT |
可选 |
Harbor中MindX DL相关镜像的项目公开状态,默认值为“false”私有,可选值“false”或“true”。 |
HARBOR_CA_FILE |
可选 |
使用https协议时,配置Harbor镜像仓根CA文件路径。默认值为“no”。 |