ClusterD
应用场景
一个任务可能有多个节点故障,如果由各个节点自己判定,会造成任务同时处于多种恢复策略的场景。为了协调任务的处理级别,MindCluster集群调度提供了部署在管理节点的ClusterD服务,用于控制各个级别的故障处理措施的实施级别及上升路径。
组件功能
- 从Ascend Device Plugin和NodeD组件获取芯片、节点和网络信息并汇总,供集群调度上层服务调用。
- 与训练容器内部建立连接,控制训练进程进行重计算动作。
- 与带外服务交互,传输任务信息。
组件上下游依赖
图1 ClusterD
- 从各个计算节点的Ascend Device Plugin中获取计算芯片及灵衢超节点芯片的信息。
- 从各个计算节点的NodeD在获取计算节点的CPU、内存和硬盘的健康状态信息。
- 汇总整个集群的资源信息,上报给Ascend for Volcano。
- 侦听集群的任务信息,将任务状态、资源使用情况等信息上报给CCAE。
- 与容器内进程交互,控制训练进程进行重计算。
父主题: 组件介绍