NodeD
应用场景
节点的CPU、内存或硬盘发生某些故障后,训练任务会失败。为了让训练任务在节点故障情况下快速退出,并且后续的新任务不再调度到故障节点上,
MindCluster
提供了
NodeD
组件,用于检测节点的异常。
组件功能
从ipmi中获取节点异常,并上报给资源调度的上层服务。
定时发送节点状态信息给资源调度的上层服务。
组件上下游依赖
图1
组件上下游依赖
从ipmi中获取计算节点的CPU、内存、硬盘的故障信息。
将计算节点的CPU、内存、硬盘的故障信息上报给
ClusterD
。
父主题:
组件介绍