昇腾社区首页
中文
注册
开发者
下载

Node信息中Allocatable.huawei.com/Ascend910对应的芯片数量为8,下发8卡任务,任务处于Pending状态

问题现象描述

通过kubectl describe node {node name}命令查看Node信息,Allocatable.huawei.com/Ascend910对应的芯片数量为8,下发8卡任务,任务处于Pending状态。

Capacity:
  cpu:                   72
  ephemeral-storage:     1843598940Ki
  huawei.com/Ascend910:  8
  hugepages-1Gi:         0
  hugepages-2Mi:         0
  memory:                659447564Ki
  pods:                  110
Allocatable:
  cpu:                   72
  ephemeral-storage:     1699060780291
  huawei.com/Ascend910:  8
  hugepages-1Gi:         0
  hugepages-2Mi:         0
  memory:                659345164Ki
  pods:                  110

原因分析

该节点上可能存在非Ascend Device Plugin感知的公共故障。

解决措施

请参见获取集群内当前可用设备信息进行解决。