下发vcjob任务后,训练任务一直未运行。
该节点的未使用NPU数目与Annotations中展示的未使用NPU数目不一致。Volcano认为系统处于不稳定阶段,不能进行本次NPU资源的分配。
执行kubectl describe nodes命令,查看节点的Allocated resources和Annotations的huawei.com/Ascend910:字段。
造成该问题的原因除了任务量特别多时(K8s运行缓慢),主要原因为Ascend Device Plugin启动方式存在问题。
重新安装Ascend Device Plugin,请参见启动Ascend Device Plugin。