Node信息中Allocatable.huawei.com/Ascend910对应的芯片数量为8,下发8卡任务,任务处于Pending状态
问题现象描述
通过kubectl describe node {node name}命令查看Node信息,Allocatable.huawei.com/Ascend910对应的芯片数量为8,下发8卡任务,任务处于Pending状态。
Capacity: cpu: 72 ephemeral-storage: 1843598940Ki huawei.com/Ascend910: 8 hugepages-1Gi: 0 hugepages-2Mi: 0 memory: 659447564Ki pods: 110 Allocatable: cpu: 72 ephemeral-storage: 1699060780291 huawei.com/Ascend910: 8 hugepages-1Gi: 0 hugepages-2Mi: 0 memory: 659345164Ki pods: 110
原因分析
该节点上可能存在非Ascend Device Plugin感知的公共故障。
解决措施
请参见获取集群内当前可用设备信息进行解决。
父主题: 使用时出现的故障