昇腾社区首页
中文
注册

NodeD

应用场景

节点的CPU、内存或硬盘发生某些故障后,训练任务会失败。为了让训练任务在节点故障情况下快速退出,并且后续的新任务不再调度到故障节点上,MindCluster提供了NodeD组件,用于检测节点的异常。

组件功能

  • 从IPMI中获取节点异常,并上报给资源调度的上层服务。
  • 定时发送节点故障信息给资源调度的上层服务。

组件上下游依赖

图1 组件上下游依赖
  1. 从IPMI中获取计算节点的CPU、内存、硬盘的故障信息。
  2. 将计算节点的CPU、内存、硬盘的故障信息上报给ClusterD