集群资源

cluster-info-<device/node/switch>-<[0-5]>

n为从0开始递增的整数。集群规模每增加2000个节点，则会新增一个ConfigMap文件cluster-info-node-${n}。
m为从0开始递增的整数。集群规模每增加1000个节点，则会新增一个ConfigMap文件cluster-info-device-${m}。
x为从0开始递增的整数。集群规模每增加2000个节点，则会新增一个ConfigMap文件cluster-info-switch-${x}。

表1 cluster-info-node-${n}
参数名	描述
mindx-dl-nodeinfo-<kwok-node-0>	前缀为固定的mindx-dl-nodeinfo，kwok-node-0是节点名称，方便定位故障的具体节点
NodeInfo	节点维度的故障信息。
FaultDevList	节点故障设备列表。
- DeviceType	故障设备类型。
- DeviceId	故障设备ID。
- FaultCode	故障码，由英文和数组拼接而成的字符串，字符串表示故障码的十六进制。
- FaultLevel	故障处理等级。 NotHandleFault：无需处理。 PreSeparateFault：该节点上有任务则不处理，后续调度时不调度任务到该节点。 SeparateFault：任务重调度。
reportInterval	上报节点状态的最小间隔。
NodeStatus	节点健康状态，由本节点故障处理等级最严重的设备决定。 Healthy：该节点故障处理等级存在且不超过NotHandleFault，该节点为健康节点，可以正常训练。 PreSeparate：该节点故障处理等级存在且不超过PreSeparateFault，该节点为预隔离节点，暂时可能对任务无影响，待任务受到影响退出后，后续不会再调度任务到该节点。 UnHealthy：该节点故障处理等级存在SeparateFault，该节点为故障节点，将影响训练任务，立即将任务调离该节点。

表2 cluster-info-device-${m}
参数名	描述
mindx-dl-deviceinfo-<kwok-node-0>	前缀为固定的mindx-dl-deviceinfo，kwok-node-0是节点名称，用于定位故障的具体节点。
huawei.com/Ascend910	当前节点可用的芯片名称信息，存在多个时用英文逗号拼接。
huawei.com/Ascend910-NetworkUnhealthy	当前节点网络不健康的芯片名称信息，存在多个时用英文逗号拼接。
huawei.com/Ascend910-Unhealthy	当前不健康的芯片名称信息，存在多个时用英文逗号拼接。
huawei.com/Ascend910-Fault	数组对象，对象包含fault_type、npu_name、large_model_fault_level、 fault_level、fault_handling和fault_code等6个字段。
- fault_type	故障类型。 CardUnhealthy：芯片故障 CardNetworkUnhealthy：参数面网络故障（芯片网络相关故障） NodeUnhealthy：节点故障 PublicFault：公共故障
- npu_name	故障的芯片名称，节点故障时为空。
- large_model_fault_level	故障处理类型，节点故障时取值为空。 NotHandleFault：不做处理 RestartRequest：推理场景需要重新执行推理请求，训练场景重新执行训练业务 RestartBusiness：需要重新执行业务 FreeRestartNPU：影响业务执行，待芯片空闲时需复位芯片 RestartNPU：直接复位芯片并重新执行业务 SeparateNPU：隔离芯片 PreSeparateNPU：预隔离芯片，会根据训练任务实际运行情况判断是否重调度说明： large_model_fault_level、fault_handling和fault_level参数功能一致，推荐使用fault_handling。
- fault_level
- fault_handling
- fault_code	故障码，英文逗号拼接的字符串。
SuperPodID	超节点ID。
ServerIndex	当前节点在超节点中的相对位置。说明：驱动上报的SuperPodID或ServerIndex的值为0xffffffff时，SuperPodID或ServerIndex的取值为-1。存在以下情况，SuperPodID或ServerIndex的取值为-2。当前设备不支持查询超节点信息。因驱动问题导致获取超节点信息失败。
- fault_time_and_level_map	故障码、故障发生时间及故障处理等级。

表3 cluster-info-switch-${x}
参数名	描述
FaultCode	当前节点的总线设备故障码列表。数组对象，包含EventType、AssembledFaultCode、PeerPortDevice、PeerPortId、SwitchChipId、Severity、Assertion、AlarmRaisedTime等字段。
FaultLevel	当前节点故障处理等级。取FaultCode中所有故障中等级最高的故障等级，取值包含：NotHandle，PreSeparate，Separate。
UpdateTime	故障上报刷新时间。
NodeStatus	当前节点健康状态对应FaultLevel取值，NotHandle:Healthy，PreSeparate:SubHealthy，Separate:UnHealthy。

statistic-fault-info

该ConfigMap位于用户创建的cluster-system命名空间下，Label为mc-statistic-fault=true。用于展示集群中的故障信息（当前仅展示公共故障信息）。

表4 Data数据信息说明
参数名	描述
PublicFaults	公共故障详情。故障数量过大时，不再更新本字段内容。以下各字段的详细说明请参见表1 故障信息说明。
-<node name>	故障节点名称
-resource	故障发送方默认配置为CCAE、fd-online、pingmesh、Netmind。
-devIds	故障芯片物理ID
-faultId	故障实例id
-type	故障类型 NPU：芯片故障。 Node：节点故障。 Network：网络故障。 Storage：存储故障。
-faultCode	故障码
-level	故障级别 NotHandleFault：暂不处理。 SubHealthFault：亚健康。 SeparateNPU：无法恢复，需要隔离芯片。
-faultTime	故障产生时间
FaultNum	故障数量
-publicFaultNum	所有节点的公共故障数量之和。
Description	公共故障数量过大时的提示信息。
说明：公共故障对外展示1M数据，大约4500条。超过4500条时，部分数据不再对外展示，ConfigMap中会新增Description内容进行提示，内部缓存正常运行。

cluster-system super-pod-<super-pod>

该ConfigMap位于用户创建的cluster-system命名空间下，Label为app=pingmesh。

表5 cluster-system super-pod-<super-pod>
参数	描述
app	NodeD识别ConfigMap所需的Label key，取值为pingmesh。
superPodDevice	超节点信息的key。
SuperPodID	超节点ID
NodeDeviceMap	超节点中包含的所有节点信息。
NodeName	节点名称
DeviceMap	节点中的所有NPU信息，格式为physicID: superDeviceID。

父主题： ClusterD