组网要求

由于集群调度组件的核心调度组件Volcano目前是部署在k8s的管理节点。为保证业务健康稳定,根据k8s的部署要求作出如下建议,客户可根据自身业务特点作出调整。
- 管理节点与计算节点、存储节点分离,建议使用单独服务器部署。
- 若集群规模较大或者对业务可靠性要求较高,管理节点需使用多节点方式。
部署逻辑示意图
图1 部署逻辑示意图

数据中心集群中的节点类型一般分为以下三种:
- 管理节点(即Master节点):管理集群,负责分发训练、推理任务到各个计算节点执行,可安装与master节点相关联的集群调度组件。
- 计算节点(即Worker节点):实际执行训练、推理任务,可安装与Worker节点相关联的集群调度组件。
- 存储节点:存储数据集、训练输出的模型等数据。
网络平面划分为:
- 业务面:用于K8s集群业务管理。
- 存储面:一般用于从存储节点读取训练用的数据集,因为对带宽有要求,所以建议单独组网,将训练节点和存储节点联通。
- 参数面:用于分布式训练时,训练节点之间的参数交换以及训练节点之间连接。可参考解决方案的组网方案。
父主题: 硬件