Ascend Device Plugin收集了内部的芯片故障、参数面网络故障和节点故障,将其作为对外的信息放在了K8s的ConfigMap中,一个ConfigMap放置一个节点的信息,以供外部查询和使用。
查询命令:kubectl describe cm -n kube-system mindx-dl-deviceinfo-${node_name}
{"DeviceInfo":{"DeviceList":{"huawei.com/Ascend910":"Ascend910-0,Ascend910-1,Ascend910-2,Ascend910-3","huawei.com/Ascend910-Fault":"[{\"fault_type\":\"CardUnhealthy\",\"npu_name\":\"Ascend910-4\",\"large_model_fault_level\":\"SeparateNPU\",\"fault_level\":\"SeparateNPU\",\"fault_code\":\"A4028801,A8028801,80E18402,80E18401\"}]","huawei.com/Ascend910-NetworkUnhealthy":"","huawei.com/Ascend910-Unhealthy":"Ascend910-4"},"UpdateTime":1700545843},"SuperPodID":-2,"ServerIndex":-2,"CheckCode":"7e762f58333816da299481825f9a7c251a1a79428beb8d0c488fba9412e0dcf4"}
参数名 |
描述 |
---|---|
huawei.com/Ascend910 |
当前节点可用的芯片名称信息,存在多个时用英文逗号拼接。 |
huawei.com/Ascend910-NetworkUnhealthy |
当前节点网络不健康的芯片名称信息,存在多个时用英文逗号拼接。 |
huawei.com/Ascend910-Unhealthy |
当前芯片不健康的芯片名称信息,存在多个时用英文逗号拼接。 |
huawei.com/Ascend910-Fault |
数组对象,对象包含fault_type、npu_name、large_model_fault_level、 fault_level、fault_handling和fault_code等6个字段。 |
- fault_type |
故障类型。
|
- npu_name |
故障的芯片名称,节点故障时为空 |
- large_model_fault_level |
故障处理类型,节点故障时取值为空。
说明:
large_model_fault_level、fault_handling和fault_level参数功能一致,推荐使用fault_handling。 |
- fault_level |
|
- fault_handling |
|
- fault_code |
故障码,英文逗号拼接的字符串。芯片故障码的详细说明,可以通过芯片故障码参考文档获取对应的参考文档。 |
SuperPodID |
超节点ID。 |
ServerIndex |
当前节点在超节点中的相对位置。
说明:
|