集群资源
cluster-info-<device/node/switch>-<[0-5]>
- n为从0开始递增的整数。集群规模每增加2000个节点,则会新增一个ConfigMap文件cluster-info-node-${n}。
 - m为从0开始递增的整数。集群规模每增加1000个节点,则会新增一个ConfigMap文件cluster-info-device-${m}。
 - x为从0开始递增的整数。集群规模每增加2000个节点,则会新增一个ConfigMap文件cluster-info-switch-${x}。
 
参数名  | 
描述  | 
|---|---|
mindx-dl-nodeinfo-<kwok-node-0>  | 
前缀为固定的mindx-dl-nodeinfo,kwok-node-0是节点名称,方便定位故障的具体节点  | 
NodeInfo  | 
节点维度的故障信息。  | 
FaultDevList  | 
节点故障设备列表。  | 
- DeviceType  | 
故障设备类型。  | 
- DeviceId  | 
故障设备ID。  | 
- FaultCode  | 
故障码,由英文和数组拼接而成的字符串,字符串表示故障码的十六进制。  | 
- FaultLevel  | 
故障处理等级。 
  | 
reportInterval  | 
上报节点状态的最小间隔。  | 
NodeStatus  | 
节点健康状态,由本节点故障处理等级最严重的设备决定。 
  | 
参数名  | 
描述  | 
|---|---|
mindx-dl-deviceinfo-<kwok-node-0>  | 
前缀为固定的mindx-dl-deviceinfo,kwok-node-0是节点名称,用于定位故障的具体节点。  | 
huawei.com/Ascend910  | 
当前节点可用的芯片名称信息,存在多个时用英文逗号拼接。  | 
huawei.com/Ascend910-NetworkUnhealthy  | 
当前节点网络不健康的芯片名称信息,存在多个时用英文逗号拼接。  | 
huawei.com/Ascend910-Unhealthy  | 
当前不健康的芯片名称信息,存在多个时用英文逗号拼接。  | 
huawei.com/Ascend910-Fault  | 
数组对象,对象包含fault_type、npu_name、large_model_fault_level、 fault_level、fault_handling和fault_code等6个字段。  | 
- fault_type  | 
故障类型。 
  | 
- npu_name  | 
故障的芯片名称,节点故障时为空。  | 
- large_model_fault_level  | 
故障处理类型,节点故障时取值为空。 
  说明:  
large_model_fault_level、fault_handling和fault_level参数功能一致,推荐使用fault_handling。  | 
- fault_level  | 
|
- fault_handling  | 
|
- fault_code  | 
故障码,英文逗号拼接的字符串。  | 
SuperPodID  | 
超节点ID。  | 
ServerIndex  | 
当前节点在超节点中的相对位置。  说明:  
  | 
- fault_time_and_level_map  | 
故障码、故障发生时间及故障处理等级。  | 
参数名  | 
描述  | 
|---|---|
FaultCode  | 
当前节点的总线设备故障码列表。 数组对象,包含EventType、AssembledFaultCode、PeerPortDevice、PeerPortId、SwitchChipId、Severity、Assertion、AlarmRaisedTime等字段。  | 
FaultLevel  | 
当前节点故障处理等级。 取FaultCode中所有故障中等级最高的故障等级,取值包含:NotHandle,PreSeparate,Separate。  | 
UpdateTime  | 
故障上报刷新时间。  | 
NodeStatus  | 
当前节点健康状态 对应FaultLevel取值,NotHandle:Healthy,PreSeparate:SubHealthy,Separate:UnHealthy。  | 
statistic-fault-info
该ConfigMap位于用户创建的cluster-system命名空间下,Label为mc-statistic-fault=true。用于展示集群中的故障信息(当前仅展示公共故障信息)。
参数名  | 
描述  | 
|---|---|
PublicFaults  | 
公共故障详情。故障数量过大时,不再更新本字段内容。以下各字段的详细说明请参见表1 故障信息说明。  | 
-<node name>  | 
故障节点名称  | 
-resource  | 
故障发送方 默认配置为CCAE、fd-online、pingmesh、Netmind。  | 
-devIds  | 
故障芯片物理ID  | 
-faultId  | 
故障实例id  | 
-type  | 
故障类型 
  | 
-faultCode  | 
故障码  | 
-level  | 
故障级别 
  | 
-faultTime  | 
故障产生时间  | 
FaultNum  | 
故障数量  | 
-publicFaultNum  | 
所有节点的公共故障数量之和。  | 
Description  | 
公共故障数量过大时的提示信息。  | 
 说明:  
  | 
|
cluster-system super-pod-<super-pod>
该ConfigMap位于用户创建的cluster-system命名空间下,Label为app=pingmesh。