芯片资源
mindx-dl-deviceinfo-<nodename>
Ascend Device Plugin上报的NPU芯片信息如表1所示。
名称 |
含义 |
说明 |
|---|---|---|
huawei.com/Ascend910 |
标记当前节点可用的芯片名称信息,存在多个时用英文逗号拼接。 |
|
huawei.com/Ascend910-NetworkUnhealthy |
标记当前节点网络不健康的芯片名称信息,存在多个时用英文逗号拼接。 |
- |
huawei.com/Ascend910-Unhealthy |
标记当前芯片不健康的芯片名称信息,存在多个时用英文逗号拼接。 |
- |
huawei.com/Ascend910-Recovering |
标记当前节点正在进行恢复的芯片,存在多个时用英文逗号拼接。 |
- |
huawei.com/Ascend910-Fault |
记录芯片具体的故障信息。 |
数组对象,对象包含fault_type、npu_name、large_model_fault_level、fault_level、fault_handling、fault_code和fault_time_and_level_map这7个字段。 |
-fault_type |
故障类型。 |
|
-npu_name |
故障的芯片名称,节点故障时为空。 |
字符串 |
-large_model_fault_level |
故障处理类型,节点故障时取值为空。 |
说明:
|
-fault_level |
||
-fault_handling |
||
-fault_code |
故障码,英文逗号拼接的字符串。 |
Disconnected表示芯片网络不连通故障。heartbeatTimeOut表示节点状态丢失故障 |
-fault_time_and_level_map |
故障码、故障发生时间及故障处理等级。 |
- |
SuperPodID |
超节点ID。 |
字符串 |
ServerIndex |
当前节点在超节点中的相对位置。 |
|
CheckCode |
校验码。 |
- |
Ascend Device Plugin上报的灵衢总线设备故障信息如表2所示。
名称 |
含义 |
说明 |
|---|---|---|
FaultCode |
当前节点的灵衢总线设备故障码列表。 |
数组对象,包含EventType、AssembledFaultCode、PeerPortDevice、PeerPortId、SwitchChipId、SwitchPortId、Severity、Assertion、AlarmRaisedTime等字段。 |
-EventType |
告警ID。 |
- |
-AssembledFaultCode |
故障码。 |
- |
-PeerPortDevice |
对接设备类型。 |
|
-PeerPortId |
对接设备ID。 |
- |
-SwitchChipId |
灵衢故障芯片ID。 |
从0开始编号。 |
-SwitchPortId |
灵衢故障端口ID。 |
从0开始编号。 |
-Severity |
故障等级。 |
|
-Assertion |
事件类型。 |
|
-AlarmRaisedTime |
故障/事件产生时间。 |
- |
FaultLevel |
当前节点故障处理等级。 |
取FaultCode中所有故障中等级最高的故障等级,取值包含:NotHandle,PreSeparate,Separate。 |
UpdateTime |
故障上报刷新时间。 |
- |
NodeStatus |
当前节点健康状态。 |
对应FaultLevel取值,NotHandle:Healthy,PreSeparate:SubHealthy,Separate:UnHealthy。 |
FaultTimeAndLevelMap |
故障发生时间及故障处理等级列表。 |
数组对象,包含故障码、灵衢故障芯片ID、灵衢故障端口ID、fault_time和fault_level字段。键值为故障码、灵衢故障芯片ID、灵衢故障端口ID,由下划线连接组成。 |
-fault_time |
故障发生时间。 |
- |
-fault_level |
故障处理等级。 |
- |
Ascend Device Plugin的ConfigMap中的描述信息如表3所示。
名称 |
含义 |
说明 |
|---|---|---|
Description |
描述信息。 |
此ConfigMap中的节点的可用芯片信息正在日落。默认情况下,节点的可用芯片由Volcano维护,此ConfigMap中维护的不生效。如果需要生效,可以修改Volcano的配置参数“self-maintain-available-card”值为false。 |
Ascend Device Plugin上报的NPU设备故障信息如表4所示。对象名称是<device-plugin-pod-name>.<上报时间><故障芯片ID>,对象类型为Event。
名称 |
含义 |
说明 |
|---|---|---|
type |
事件的级别。 |
唯一值:Warning |
message |
事件的内容,包括节点名称、芯片编号、故障的产生或者恢复类型、故障码和故障级别信息。 |
字符串 |
reason |
事件上报的原因。 |
|
action |
故障的级别。 |
字符串。详细说明请参见表1。 |
source |
故障产生的源头。 |
结构体。表明故障产生的节点。 |
eventTime |
故障产生的时间。 |
时间戳 |
involvedObject |
故障绑定展示的对象。 |
结构体。通过Kind、Namespace和Name指向当前Ascend Device Plugin的Pod名称。指定后除了可以直接通过Event对象查询之外,查询当前的Pod详情时也能看到该事件。 |
reportingComponent |
事件的控制者。 |
唯一值:device-plugin |
reportingInstance |
事件的上报实例。 |
字符串。取当前Ascend Device Plugin的Pod名称。 |
deviceNameCustomization.json
deviceNameCustomization.json支持自定义设备名称。编译Ascend Device Plugin镜像时,将该文件放在二进制包的同级目录下,即可将Ascend Device Plugin对外展示的资源类型、资源名称修改为自定义的名称。
名称 |
说明 |
取值 |
|---|---|---|
ResourceType |
设备的初始名称,必填。 |
仅支持Ascend910、Ascend310和Ascend310P中的一种。 |
DevicePublicType |
设备对外展示的类型,例如huawei.com/Ascend910,必填。 |
仅支持xxx.xxx/xxx格式,xxx可以为大小写字母及数字,长度范围为10~32个字符。 |
DevicePublicNamePre |
设备对外展示的名称前缀,例如Ascend910-。实际展示的名称,Ascend Device Plugin会在前缀后面拼接芯片的物理ID,必填。 |
可以包含大小写字母、中划线(-)、数字,必须以大小写字母开头,长度范围为2~16个字符。 |
PodConfigurationName |
Pod的annotation上展示的挂载芯片信息详情,ResourceType为Ascend910时必填。 |
可以包含大小写字母、中划线(-)、/、点(.)、数字,必须以大小写字母开头,大小写字母数字结尾,长度范围为10~63个字符。 |
