节点故障
节点故障的发现主要通过NodeD和Volcano组件实现。节点故障包括节点状态丢失和节点硬件故障,详细说明如下:
- 节点健康状态
NodeD完成当前节点的节点状态诊断后,收集本节点内的故障信息,通过节点状态上报机制不断向Volcano发送节点状态(当前仅收集本节点内的硬件故障信息)。
- 节点硬件故障
针对节点硬件故障,NodeD通过IPMI驱动向iBMC发送故障查询请求,iBMC将当前硬件告警信息响应给NodeD。NodeD收集硬件告警信息后,将节点硬件状态上报给Volcano。
图1 节点故障上报


- NodeD最短5秒(默认)会更新本节点的node-info-cm内容,其中字段说明见mindx-dl-nodeinfo-<nodename>。
- NodeD每隔30分钟(默认)会从iBMC查询当前节点的硬件故障信息,随着节点状态更新时一起上报到node-info-cm中。
支持的故障处理类型
Job级别重调度、Pod级别重调度、进程级别重调度
(可选)配置故障检测的级别
断点续训针对节点故障中节点硬件故障的不同故障码,提供了默认的故障级别和对应级别的故障处理策略。若用户需要修改故障处理策略,可参见节点硬件故障。若无特殊需求,请勿随意修改。
父主题: 故障检测