Ascend Device Plugin上报的NPU芯片信息如表1所示。
名称 |
含义 |
说明 |
---|---|---|
huawei.com/Ascend910 |
标记当前节点可用的芯片名称信息,存在多个时用英文逗号拼接。 |
Ascend Device Plugin组件上报当前节点可用的芯片信息均为真实可用芯片。 Ascend Device Plugin组件上报当前节点可用的芯片对特权容器和非特权容器挂载芯片的情况存在不同处理:
|
huawei.com/Ascend910-NetworkUnhealthy |
标记当前节点网络不健康的芯片名称信息,存在多个时用英文逗号拼接 |
-- |
huawei.com/Ascend910-Unhealthy |
标记当前芯片不健康的芯片名称信息,存在多个时用英文逗号拼接 |
-- |
huawei.com/Ascend910-Recovering |
标记当前节点正在进行恢复的芯片,存在多个时用英文逗号拼接。 |
-- |
huawei.com/Ascend910-Fault |
记录芯片具体的故障信息 |
- 数组对象,对象包含fault_type、npu_name、large_model_fault_level、fault_level、fault_handling和fault_code这6个字段。 |
- fault_type |
故障类型 |
|
- npu_name |
故障的芯片名称,节点故障时为空 |
字符串 |
- large_model_fault_level |
故障处理类型,节点故障时取值为空 |
说明:
large_model_fault_level、fault_level和fault_handling参数功能一致,推荐使用fault_handling。 |
- fault_level |
||
- fault_handling |
||
- fault_code |
故障码,英文逗号拼接的字符串 |
Disconnected表示芯片网络不连通故障。heartbeatTimeOut表示节点状态丢失故障 |
-fault_time_map |
故障发生的时间 |
- |
SuperPodID |
超节点ID。 |
字符串 |
ServerIndex |
当前节点在超节点中的相对位置。 |
|
Ascend Device Plugin上报的总线设备故障信息如表2所示。
参数名称 |
含义 |
说明 |
---|---|---|
FaultCode |
当前节点的总线设备故障码列表。 |
数组对象,包含EventType、AssembledFaultCode、PeerPortDevice、PeerPortId、SwitchChipId、Severity、Assertion、AlarmRaisedTime等字段。 |
FaultLevel |
当前节点故障处理等级。 |
取FaultCode中所有故障中等级最高的故障等级,取值包含:NotHandle,PreSeparate,Separate。 |
UpdateTime |
故障上报刷新时间。 |
- |
NodeStatus |
当前节点健康状态 |
对应FaultLevel取值,NotHandle:Healthy,PreSeparate:SubHealthy,Separate:UnHealthy。 |