NodeD
NodeD收集了节点故障信息和节点健康状态信息,将其作为对外的信息放在K8s的ConfigMap中,以供外部查询和使用。
查询命令为kubectl describe cm mindx-dl-nodeinfo-<nodename> -n mindx-dl,命令回显示例如下,关键参数说明请参见表1。
Name:         mindx-dl-nodeinfo-<nodename>
Namespace:    mindx-dl
Labels:       <none>
Annotations:  <none>
Data
====
NodeInfo:
----
{"NodeInfo":{"FaultDevList":[{"DeviceType":"CPU","DeviceId":1,"FaultCode":["00000011"],"FaultLevel":"SeparateFault"}],"NodeStatus":"UnHealthy"},"CheckCode":"3a2934c3cb875f2256c770c75a6fdf24594fcf64481ac6cd0d0f74b8fea88855"}
Events:  <none>
参数名  | 
描述  | 
|---|---|
NodeInfo  | 
节点维度的故障信息。  | 
FaultDevList  | 
节点故障设备列表。  | 
- DeviceType  | 
故障设备类型。  | 
- DeviceId  | 
故障设备ID。  | 
- FaultCode  | 
故障码,由英文和数组拼接而成的字符串,字符串表示故障码的十六进制。  | 
- FaultLevel  | 
故障处理等级。 
  | 
NodeStatus  | 
节点健康状态,由本节点故障处理等级最严重的设备决定。 
  | 
父主题: 查询上报的故障信息