ClusterD
应用场景
一个节点可能发生多个故障,如果由各个节点自发进行故障处理,会造成任务同时处于多种恢复策略的场景。为了协调任务的处理级别,MindCluster提供了部署在管理节点的ClusterD服务。ClusterD收集集群任务、资源和故障信息及影响范围,从任务、芯片和故障维度统计分析,统一判定故障处理级别和策略。
组件功能
- 从Ascend Device Plugin和NodeD组件获取芯片、节点和网络信息,从ConfigMap或gRPC获取公共故障信息。
- 汇总以上故障信息,供集群调度上层服务调用。
- 与训练容器内部建立连接,控制训练进程进行重计算动作。
- 与带外服务交互,传输任务信息。
组件上下游依赖
图1 组件上下游依赖


- 从各个计算节点的Ascend Device Plugin中获取芯片的信息。
- 从各个计算节点的NodeD中获取计算节点的CPU、内存和硬盘的健康状态信息。
- 从ConfigMap或gRPC获取公共故障信息。
- 汇总整个集群的资源信息,上报给Ascend-volcano-plugin。
- 侦听集群的任务信息,将任务状态、资源使用情况等信息上报给CCAE。
- 与容器内进程交互,控制训练进程进行重计算。
父主题: 组件介绍