开发者
资源

ClusterD

应用场景

一个任务可能有多个节点故障,如果由各个节点自己判定,会造成任务同时处于多种恢复策略的场景。为了协调任务的处理级别,MindCluster集群调度提供了部署在管理节点的ClusterD服务,用于控制各个级别的故障处理措施的实施级别及上升路径。

组件功能

  • 从Ascend Device Plugin和NodeD组件获取芯片、节点和网络信息并汇总,供集群调度上层服务调用。
  • 与训练容器内部建立连接,控制训练进程进行重计算动作。
  • 与带外服务交互,传输任务信息。

组件上下游依赖

图1 ClusterD
  1. 从各个计算节点的Ascend Device Plugin中获取计算芯片及灵衢超节点芯片的信息。
  2. 从各个计算节点的NodeD在获取计算节点的CPU、内存和硬盘的健康状态信息。
  3. 汇总整个集群的资源信息,上报给Ascend for Volcano。
  4. 侦听集群的任务信息,将任务状态、资源使用情况等信息上报给CCAE。
  5. 与容器内进程交互,控制训练进程进行重计算。