NodeD

应用场景

节点的CPU、内存或硬盘发生某些故障后,训练任务会失败。为了让训练任务在节点故障情况下快速退出,并且后续的新任务不再调度到故障节点上,MindCluster提供了NodeD组件,用于检测节点的异常。

组件功能

组件上下游依赖

图1 组件上下游依赖
  1. 从ipmi中获取计算节点的CPU、内存、硬盘的故障信息。
  2. 将计算节点的CPU、内存、硬盘的故障信息上报给ClusterD