NodeD
应用场景
节点的CPU、内存或硬盘发生某些故障后,训练任务会失败。为了让训练任务在节点故障情况下快速退出,并且后续的新任务不再调度到故障节点上。MindCluster集群调度提供了NodeD组件,用于检测节点的异常。
组件功能
- 从ipmi中获取节点异常,并上报给资源调度的上层服务。
- 定时发送节点心跳信息给资源调度的上层服务。
组件上下游依赖
图1 NodeD

- 从ipmi中获取计算节点的CPU、内存、硬盘的故障信息。
- 将计算节点的CPU、内存、硬盘的故障信息上报给ClusterD。
父主题: 组件介绍