昇腾社区首页
中文
注册

节点故障

节点故障的发现主要通过NodeDVolcano组件实现。节点故障包括节点状态丢失和节点硬件故障,详细说明如下:

  • 节点状态丢失

    针对导致节点宕机或重启的故障,NodeD通过节点状态上报机制不断向Volcano发送节点状态,当宕机或重启时节点状态丢失,从而发现该节点故障。

  • 节点硬件故障

    针对节点硬件故障,NodeD通过IPMI驱动向iBMC发送故障查询请求,iBMC将当前硬件告警信息响应给NodeDNodeD收集硬件告警信息后将节点硬件状态上报给Volcano

图1 节点故障上报
  • NodeD最短5秒(默认)会更新本节点的node-Info-cm内容,其中字段说明见表1
  • NodeD每隔60秒(默认)会从iBMC查询当前节点的硬件故障信息,随着节点状态更新时一起上报到node-Info-cm中。