故障事件信息

Ascend Device Plugin收集到的故障事件可以通过K8s的event事件进行上报,查询命令为kubectl get events -n kube-system。以Atlas 训练系列产品为例,查询结果回显示例如下,参数说明请参见表1
NAMESPACE     LAST SEEN   TYPE      REASON     OBJECT                                         MESSAGE
kube-system   8s          Warning   Occur      pod/ascend-device-plugin-daemonset-910-dlpmv   device fault, nodeName:k8smaster, assertion:Occur, cardID:2, deviceID:0, faultCodes:8C084E00, faultLevelName:RestartBusiness, alarmRaisedTime:2023-11-21 05:36:53
表1 参数说明

参数名

描述

NAMESPACE

命名空间名称,取值为kube-system。

LAST SEEN

事件产生时间。

TYPE

事件的类型,取值为“Normal”“Warning”

REASON

事件产生原因。取值说明如下:

  • Occur:故障发生
  • Recovery:故障恢复
  • Notice:通知

OBJECT

事件对象,取值规范为pod/Ascend Device Plugin的Pod名称,如pod/ascend-device-plugin-daemonset-910-dlpmv。

MESSAGE

事件信息内容描述。事件内容的字段说明如下:

  • nodeName:节点名称
  • assertion:信息类型
    • Occur:故障发生
    • Recovery:故障恢复
    • Notice:通知
  • cardID:NPU管理单元ID(NPU设备ID)
  • deviceID:设备编号
  • faultCodes:故障码,取值如8C084E00
  • faultLevelName:故障级别名称
    • NotHandleFault:不做处理
    • RestartRequest:推理场景需要重新执行推理请求,训练场景重新执行训练业务
    • RestartBusiness:需要重新执行业务
    • FreeRestartNPU:影响业务执行,待芯片空闲时需复位芯片
    • RestartNPU:直接复位芯片并重新执行业务
    • SeparateNPU:隔离芯片
  • alarmRaisedTime:故障发生时间