下发vcjob任务后,训练任务一直未运行。
该节点的未使用NPU数目与Annotations中展示的未使用NPU数目不一致。Volcano认为系统处于不稳定阶段,不能进行本次NPU资源的分配。
执行kubectl describe nodes命令,查看节点的Allocated resources和Annotations的huawei.com/Ascend910:字段。
造成该问题的原因除了任务量特别多时(K8s运行缓慢),主要原因为Ascend Device Plugin启动方式存在问题。
重新安装Ascend Device Plugin。具体操作请参见《MindX DL 集群调度用户指南》中安装相关内容。