芯片资源

mindx-dl-deviceinfo-<nodename>

Ascend Device Plugin上报的NPU芯片信息如表1所示。

表1 DeviceInfoCfg

名称

含义

说明

huawei.com/Ascend910

标记当前节点可用的芯片名称信息,存在多个时用英文逗号拼接。

Ascend Device Plugin组件上报当前节点可用的芯片信息均为真实可用芯片。

Ascend Device Plugin组件上报当前节点可用的芯片对特权容器和非特权容器挂载芯片的情况存在不同处理:

  • 若当前节点存在非特权容器且容器挂载芯片(以Ascend910-0为例),则Ascend Device Plugin组件上报当前节点可用的芯片不包含Ascend910-0。
  • 若当前节点存在特权容器且容器已挂载芯片(以Ascend910-0为例),则Ascend Device Plugin组件上报当前节点可用的芯片仍然包含Ascend910-0。

huawei.com/Ascend910-NetworkUnhealthy

标记当前节点网络不健康的芯片名称信息,存在多个时用英文逗号拼接

--

huawei.com/Ascend910-Unhealthy

标记当前芯片不健康的芯片名称信息,存在多个时用英文逗号拼接

--

huawei.com/Ascend910-Recovering

标记当前节点正在进行恢复的芯片,存在多个时用英文逗号拼接。

--

huawei.com/Ascend910-Fault

记录芯片具体的故障信息

-

数组对象,对象包含fault_type、npu_name、large_model_fault_level、fault_level、fault_handling和fault_code这6个字段。

- fault_type

故障类型

  • CardUnhealthy:芯片故障
  • CardNetworkUnhealthy:芯片网络故障
  • NodeUnhealthy:节点故障

- npu_name

故障的芯片名称,节点故障时为空

字符串

- large_model_fault_level

故障处理类型,节点故障时取值为空

  • NotHandleFault:不做处理
  • RestartRequest:推理场景需要重新执行推理请求,训练场景重新执行训练业务
  • RestartBusiness:需要重新执行业务
  • FreeRestartNPU:影响业务执行,待芯片空闲时需复位芯片
  • RestartNPU:直接复位芯片并重新执行业务
  • SeparateNPU:隔离芯片
  • PreSeparateNPU:预隔离芯片,会根据训练任务实际运行情况判断是否重调度
说明:

large_model_fault_level、fault_level和fault_handling参数功能一致,推荐使用fault_handling。

- fault_level

- fault_handling

- fault_code

故障码,英文逗号拼接的字符串

Disconnected表示芯片网络不连通故障。heartbeatTimeOut表示节点状态丢失故障

-fault_time_map

故障发生的时间

-

SuperPodID

超节点ID。

字符串

ServerIndex

当前节点在超节点中的相对位置。

  • 驱动上报的SuperPodID或ServerIndex的值为0xffffffff时,SuperPodID或ServerIndex的取值为-1。
  • 存在以下情况,SuperPodID或ServerIndex的取值为-2。
    • 当前设备不支持查询超节点信息。
    • 因驱动问题导致获取超节点信息失败。

Ascend Device Plugin上报的总线设备故障信息如表2所示。

表2 SwitchInfoCfg参数说明

参数名称

含义

说明

FaultCode

当前节点的总线设备故障码列表。

数组对象,包含EventType、AssembledFaultCode、PeerPortDevice、PeerPortId、SwitchChipId、Severity、Assertion、AlarmRaisedTime等字段。

FaultLevel

当前节点故障处理等级。

取FaultCode中所有故障中等级最高的故障等级,取值包含:NotHandle,PreSeparate,Separate。

UpdateTime

故障上报刷新时间。

-

NodeStatus

当前节点健康状态

对应FaultLevel取值,NotHandle:Healthy,PreSeparate:SubHealthy,Separate:UnHealthy。