故障信息
Ascend Device Plugin收集了内部的芯片故障、参数面网络故障和节点故障,将其作为对外的信息放在了K8s的ConfigMap中,一个ConfigMap放置一个节点的信息,以供外部查询和使用。
查询命令:kubectl describe cm -n kube-system mindx-dl-deviceinfo-${node_name}
{"DeviceInfo":{"DeviceList":{"huawei.com/Ascend910":"Ascend910-0,Ascend910-1,Ascend910-2,Ascend910-3,Ascend910-5,Ascend910-6,Ascend910-7","huawei.com/Ascend910-Fault":"[{\"fault_type\":\"CardNetworkUnhealthy\",\"npu_name\":\"Ascend910-0\",\"large_model_fault_level\":\"PreSeparateNPU\",\"fault_level\":\"PreSeparateNPU\",\"fault_handling\":\"PreSeparateNPU\",\"fault_code\":\"81078603\",\"fault_time_and_level_map\":{\"81078603\":{\"fault_time\":1744168468259,\"fault_level\":\"PreSeparateNPU\"}}},{\"fault_type\":\"CardUnhealthy\",\"npu_name\":\"Ascend910-4\",\"large_model_fault_level\":\"SeparateNPU\",\"fault_level\":\"SeparateNPU\",\"fault_handling\":\"SeparateNPU\",\"fault_code\":\"A8028801,A4028801,80E18402,80E18401\",\"fault_time_and_level_map\":{\"80E18401\":{\"fault_time\":1744167455784,\"fault_level\":\"NotHandleFault\"},\"80E18402\":{\"fault_time\":1744167455784,\"fault_level\":\"SeparateNPU\"},\"A4028801\":{\"fault_time\":1744167455784,\"fault_level\":\"NotHandleFault\"},\"A8028801\":{\"fault_time\":1744167455784,\"fault_level\":\"SeparateNPU\"}}}]","huawei.com/Ascend910-NetworkUnhealthy":"Ascend910-0","huawei.com/Ascend910-Recovering":"","huawei.com/Ascend910-Unhealthy":"Ascend910-4"},"UpdateTime":1744182144},"SuperPodID":-2,"ServerIndex":-2,"CheckCode":"a550811fdfafb5717555526816af2ca4ac6c3e102f5907574048578e0c8fcc73"}
参数名  | 
描述  | 
|---|---|
huawei.com/Ascend910  | 
当前节点可用的芯片名称信息,存在多个时用英文逗号拼接。  | 
huawei.com/Ascend910-NetworkUnhealthy  | 
当前节点网络不健康的芯片名称信息,存在多个时用英文逗号拼接。  | 
huawei.com/Ascend910-Unhealthy  | 
当前不健康的芯片名称信息,存在多个时用英文逗号拼接。  | 
huawei.com/Ascend910-Recovering  | 
标记当前节点正在进行恢复的芯片,存在多个时用英文逗号拼接。  | 
huawei.com/Ascend910-Fault  | 
数组对象,对象包含fault_type、npu_name、large_model_fault_level、 fault_level、fault_handling和fault_code这6个字段。  | 
- fault_type  | 
故障类型。 
  | 
- npu_name  | 
故障的芯片名称,节点故障时为空  | 
- large_model_fault_level  | 
故障处理类型,节点故障时取值为空。 
  说明:  
large_model_fault_level、fault_handling和fault_level参数功能一致,推荐使用fault_handling。  | 
- fault_level  | 
|
- fault_handling  | 
|
- fault_code  | 
故障码,英文逗号拼接的字符串。芯片故障码的详细说明,可以通过芯片故障码参考文档获取对应的参考文档。  | 
-fault_time_map  | 
故障发生的时间  | 
SuperPodID  | 
超节点ID。  | 
ServerIndex  | 
当前节点在超节点中的相对位置。  说明:  
  |