昇腾社区首页
中文
注册
开发者
下载

芯片资源

mindx-dl-deviceinfo-<nodename>

Ascend Device Plugin上报的NPU芯片信息如表表1所示。

表1 DeviceInfoCfg

名称

作用

取值

备注

huawei.com/Ascend910

当前节点可用的芯片名称信息,存在多个时用英文逗号拼接

字符串

-

huawei.com/Ascend910-NetworkUnhealthy

当前节点网络不健康的芯片名称信息,存在多个时用英文逗号拼接

字符串

-

huawei.com/Ascend910-Unhealthy

当前芯片不健康的芯片名称信息,存在多个时用英文逗号拼接

字符串

-

huawei.com/Ascend910-Fault

记录芯片具体的故障信息

-

数组对象,对象包含fault_type、npu_name、large_model_fault_level、fault_level、fault_handling和fault_code等6个字段。

- fault_type

故障类型

  • CardUnhealthy:芯片故障
  • CardNetworkUnhealthy:芯片网络故障
  • NodeUnhealthy:节点故障

-

- npu_name

故障的芯片名称,节点故障时为空

字符串

-

- large_model_fault_level

故障处理类型,节点故障时取值为空

  • NotHandleFault:不做处理
  • RestartRequest:推理场景需要重新执行推理请求,训练场景重新执行训练业务
  • RestartBusiness:需要重新执行业务
  • FreeRestartNPU:直接复位芯片并重新执行业务
  • RestartNPU:直接复位芯片并重新执行业务
  • SeparateNPU:隔离芯片
  • PreSeparateNPU:预隔离芯片,会根据训练任务实际运行情况判断是否重调度
说明:

large_model_fault_level、fault_level和fault_handling参数功能一致,推荐使用fault_handling。

- fault_level

- fault_handling

- fault_code

故障码,英文逗号拼接的字符串

字符串

Disconnected表示芯片网络不连通故障。heartbeatTimeOut表示节点心跳丢失故障

SuperPodID

超节点ID。

字符串

-

ServerIndex

当前节点在超节点中的相对位置。

字符串

  • 驱动上报的SuperPodID或ServerIndex的值为0xffffffff时,SuperPodID或ServerIndex的取值为-1。
  • 存在以下情况,SuperPodID或ServerIndex的取值为-2。
    • 当前设备不支持查询超节点信息。
    • 因驱动问题导致获取超节点信息失败。

Ascend Device Plugin上报的灵衢总线设备故障信息如表2所示。

表2 SwitchInfoCfg参数说明

参数名称

含义

说明

FaultCode

当前节点的灵衢总线设备故障码列表。

数组对象,包含EventType、AssembledFaultCode、PeerPortDevice、PeerPortId、SwitchChipId、Severity、Assertion、AlarmRaisedTime等字段。

FaultLevel

当前节点故障处理等级。

取FaultCode中所有故障中等级最高的故障等级,取值包含:NotHandle,PreSeparate,Separate。

UpdateTime

故障上报刷新时间。

-

NodeStatus

当前节点健康状态

对应FaultLevel取值,NotHandle:Healthy,PreSeparate:SubHealthy,Separate:UnHealthy。