昇腾社区首页
中文
注册

组网要求

由于集群调度的核心调度组件Volcano目前是部署在K8s(即Kubernetes)的管理节点,为保证业务健康稳定,部署管理节点根据K8s的部署要求作出如下建议,客户可根据自身业务特点作出调整。
  • 管理节点与计算节点、存储节点分离,建议使用单独服务器部署。
  • 若集群规模较大或者对业务可靠性要求较高,管理节点需使用多节点方式。

部署逻辑示意图

图1 部署逻辑示意图

数据中心集群中的节点类型一般分为以下三种:

  • 管理节点(即Master节点):管理集群,负责分发训练、推理任务到各个计算节点执行,可安装与Master节点相关联的集群调度组件。
  • 计算节点(即Worker节点):实际执行训练和推理任务,可安装与Worker节点相关联的集群调度组件。
  • 存储节点:存储数据集、训练输出的模型等数据。

用户需要将网络平面划分为:

  • 业务面:用于K8s集群业务管理。
  • 存储面:用于从存储节点读取训练用的数据集。因为对带宽有要求,所以建议使用单独的网络平面和网络端口,将训练节点(管理节点或计算节点)和存储节点连通。
  • 参数面:用于分布式训练时训练节点之间的参数交换,可参考以下组网说明。