昇腾社区首页
中文
注册

Ascend Device Plugin

Ascend Device Plugin收集了内部的芯片故障、芯片网络故障,将其作为对外的信息放在了k8s的ConfigMap中,一个ConfigMap放置一个节点的信息,以供外部查询和使用。

查询命令:kubectl describe cm -n kube-system mindx-dl-deviceinfo-${node_name}

Atlas 训练系列产品为例,查询结果参数说明如下:

表1 参数说明

参数名

描述

huawei.com/Ascend910

当前节点可用的芯片名称信息,存在多个时用英文逗号拼接。

huawei.com/Ascend910-NetworkUnhealthy

当前节点网络不健康的芯片名称信息,存在多个时用英文逗号拼接。

huawei.com/Ascend910-Unhealthy

当前芯片不健康的芯片名称信息,存在多个时用英文逗号拼接。

huawei.com/Ascend910-Fault

数组对象,对象包含fault_type、npu_name、large_model_fault_level、 fault_level、fault_handling和fault_code等6个字段。

- fault_type

故障类型。

  • CardUnhealthy:芯片故障
  • CardNetworkUnhealthy:芯片网络故障
  • NodeUnhealthy:节点故障

- npu_name

故障的芯片名称,节点故障时为空

- large_model_fault_level

故障处理类型,节点故障时取值为空。

  • NotHandleFault:不做处理
  • RestartRequest:推理场景需要重新执行推理请求,训练场景重新执行训练业务
  • RestartBusiness:需要重新执行业务
  • FreeRestartNPU:直接复位芯片并重新执行业务
  • RestartNPU:直接复位芯片并重新执行业务
  • SeparateNPU:隔离芯片
  • PreSeparateNPU:预隔离芯片,会根据训练任务实际运行情况判断是否重调度
说明:

large_model_fault_level、fault_handling和fault_level参数功能一致,推荐使用fault_handling。

- fault_level

- fault_handling

- fault_code

故障码,英文逗号拼接的字符串。