由于
集群调度的核心调度组件
Volcano目前是部署在
K8s(即
Kubernetes)的管理节点,为保证业务健康稳定,部署管理节点根据
K8s的部署要求作出如下建议,客户可根据自身业务特点作出调整。
- 管理节点与计算节点、存储节点分离,建议使用单独服务器部署。
- 若集群规模较大或者对业务可靠性要求较高,管理节点需使用多节点方式。
部署逻辑示意图
图1 部署逻辑示意图
数据中心集群中的节点类型一般分为以下三种:
- 管理节点(即Master节点):管理集群,负责分发训练、推理任务到各个计算节点执行,可安装与Master节点相关联的集群调度组件。
- 计算节点(即Worker节点):实际执行训练和推理任务,可安装与Worker节点相关联的集群调度组件。
- 存储节点:存储数据集、训练输出的模型等数据。
用户需要将网络平面划分为:
- 业务面:用于K8s集群业务管理。
- 存储面:用于从存储节点读取训练用的数据集。因为对带宽有要求,所以建议使用单独的网络平面和网络端口,将训练节点(管理节点或计算节点)和存储节点连通。
- 参数面:用于分布式训练时训练节点之间的参数交换,可参考以下组网说明。
- 《Ascend Training Solution 23.0.RC1 组网指南》:提供华为训练计算设备(包括Atlas 800 训练服务器、Atlas 900 PoD(型号 9000)等)搭建组网的相关说明。
- 《Ascend Training Solution 25.0.RC1 组网指南(Atlas A2训练产品)》:提供华为训练计算设备(包括Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、集成Atlas 200T A2 Box16 异构子框的训练服务器)搭建组网的相关说明。