昇腾社区首页
中文
注册
开发者
下载

芯片资源

mindx-dl-deviceinfo-<nodename>

Ascend Device Plugin上报的NPU芯片信息如表1所示。

表1 DeviceInfoCfg

名称

含义

说明

huawei.com/Ascend910

标记当前节点可用的芯片名称信息,存在多个时用英文逗号拼接。

  • 说明:

    该字段正在日落,后续版本该字段不再呈现。默认情况下,节点的可用芯片由Volcano维护,该字段不生效。如果需要生效,可以修改Volcano的配置参数“self-maintain-available-card”值为false。

huawei.com/Ascend910-NetworkUnhealthy

标记当前节点网络不健康的芯片名称信息,存在多个时用英文逗号拼接。

-

huawei.com/Ascend910-Unhealthy

标记当前芯片不健康的芯片名称信息,存在多个时用英文逗号拼接。

-

huawei.com/Ascend910-Recovering

标记当前节点正在进行恢复的芯片,存在多个时用英文逗号拼接。

-

huawei.com/Ascend910-Fault

记录芯片具体的故障信息。

数组对象,对象包含fault_type、npu_name、large_model_fault_level、fault_level、fault_handling、fault_code和fault_time_and_level_map这7个字段。

-fault_type

故障类型。

  • CardUnhealthy:芯片故障
  • CardNetworkUnhealthy:芯片网络故障
  • NodeUnhealthy:节点故障

-npu_name

故障的芯片名称,节点故障时为空。

字符串

-large_model_fault_level

故障处理类型,节点故障时取值为空。

  • NotHandleFault:不做处理
  • RestartRequest:推理场景需要重新执行推理请求,训练场景重新执行训练业务
  • RestartBusiness:需要重新执行业务
  • FreeRestartNPU:影响业务执行,待芯片空闲时需复位芯片
  • RestartNPU:直接复位芯片并重新执行业务
  • SeparateNPU:隔离芯片
  • PreSeparateNPU:预隔离芯片,会根据训练任务实际运行情况判断是否重调度
说明:
  • large_model_fault_level、fault_level和fault_handling参数功能一致,推荐使用fault_handling。
  • 若推理任务订阅了故障信息,任务使用的推理卡上发生RestartRequest故障且故障持续时间未超过60秒,则不执行任务重调度;若故障持续时间超过60秒仍未恢复,则隔离芯片,进行任务重调度。

-fault_level

-fault_handling

-fault_code

故障码,英文逗号拼接的字符串。

Disconnected表示芯片网络不连通故障。heartbeatTimeOut表示节点状态丢失故障

-fault_time_and_level_map

故障码、故障发生时间及故障处理等级。

-

SuperPodID

超节点ID。

字符串

ServerIndex

当前节点在超节点中的相对位置。

  • 驱动上报的SuperPodID或ServerIndex的值为0xffffffff时,SuperPodID或ServerIndex的取值为-1。
  • 存在以下情况,SuperPodID或ServerIndex的取值为-2。
    • 当前设备不支持查询超节点信息。
    • 因驱动问题导致获取超节点信息失败。

CheckCode

校验码

-

Ascend Device Plugin上报的灵衢总线设备故障信息如表2所示。

表2 SwitchInfoCfg参数说明

名称

含义

说明

FaultCode

当前节点的灵衢总线设备故障码列表。

数组对象,包含EventType、AssembledFaultCode、PeerPortDevice、PeerPortId、SwitchChipIdSwitchPortId、Severity、Assertion、AlarmRaisedTime等字段。

-EventType

告警ID。

-

-AssembledFaultCode

故障码。

-

-PeerPortDevice

对接设备类型

  • 0:CPU
  • 1:NPU
  • 2:SW
  • 0xFFFF:NA

-PeerPortId

对接设备ID

-

-SwitchChipId

灵衢故障芯片ID

从0开始编号。

-SwitchPortId

灵衢故障端口ID

从0开始编号。

-Severity

故障等级

  • 0:提示
  • 1:次要
  • 2:重要
  • 3:紧急

-Assertion

事件类型

  • 0:故障恢复
  • 1:故障产生
  • 2:通知类事件

-AlarmRaisedTime

故障/事件产生时间

-

FaultLevel

当前节点故障处理等级。

取FaultCode中所有故障中等级最高的故障等级,取值包含:NotHandle,PreSeparate,Separate。

UpdateTime

故障上报刷新时间。

-

NodeStatus

当前节点健康状态。

对应FaultLevel取值,NotHandle:Healthy,PreSeparate:SubHealthy,Separate:UnHealthy。

FaultTimeAndLevelMap

故障发生时间及故障处理等级列表。

数组对象,包含故障码、灵衢故障芯片ID灵衢故障端口IDfault_timefault_level字段。键值为故障码、灵衢故障芯片ID、灵衢故障端口ID,由下划线连接组成

-fault_time

故障发生时间

-

-fault_level

故障处理等级

-

Ascend Device Plugin的ConfigMap中的描述信息如表3所示。

表3 Description说明

名称

含义

说明

Description

描述信息。

此ConfigMap中的节点的可用芯片信息正在日落。默认情况下,节点的可用芯片由Volcano维护,此ConfigMap中维护的不生效。如果需要生效,可以修改Volcano的配置参数“self-maintain-available-card”值为false。

Ascend Device Plugin上报的NPU设备故障信息如表4所示。对象名称是<device-plugin-pod-name>.<上报时间><故障芯片ID>,对象类型为Event。

下表仅展示与MindCluster业务相关的字段说明,更多字段的说明详细请参见Event core

表4 NPU设备故障信息

名称

含义

说明

type

事件的级别。

唯一值:Warning

message

事件的内容,包括节点名称、芯片编号、故障的产生或者恢复类型、故障码和故障级别信息。

字符串

reason

事件上报的原因。

  • Recovery:故障恢复
  • Occur:故障产生
  • Notice:一次性通知故障

action

故障的级别。

字符串。详细说明请参见表1

source

故障产生的源头。

结构体。表明故障产生的节点。

eventTime

故障产生的时间。

时间戳

involvedObject

故障绑定展示的对象。

结构体。通过Kind、Namespace和Name指向当前Ascend Device Plugin的Pod名称。指定后除了可以直接通过Event对象查询之外,查询当前的Pod详情时也能看到该事件

reportingComponent

事件的控制者。

唯一值:device-plugin

reportingInstance

事件的上报实例。

字符串。取当前Ascend Device Plugin的Pod名称。

deviceNameCustomization.json

deviceNameCustomization.json支持自定义设备名称。编译Ascend Device Plugin镜像时,将该文件放在二进制包的同级目录下,即可将Ascend Device Plugin对外展示的资源类型、资源名称修改为自定义的名称。

表5 deviceNameCustomization.json支持自定义设备名称

名称

说明

取值

ResourceType

设备的初始名称,必填。

仅支持Ascend910、Ascend310和Ascend310P中的一种。

DevicePublicType

设备对外展示的类型,例如huawei.com/Ascend910,必填。

仅支持xxx.xxx/xxx格式,xxx可以为大小写字母及数字,长度范围为10~32个字符。

DevicePublicNamePre

设备对外展示的名称前缀,例如Ascend910-。实际展示的名称,Ascend Device Plugin会在前缀后面拼接芯片的物理ID,必填。

可以包含大小写字母、中划线(-)、数字,必须以大小写字母开头,长度范围为2~16个字符。

PodConfigurationName

Pod的annotation上展示的挂载芯片信息详情,ResourceType为Ascend910时必填。

可以包含大小写字母、中划线(-)、/、点(.)、数字,必须以大小写字母开头,大小写字母数字结尾,长度范围为10~63个字符。