下发任务
操作步骤
- 示例a800_tensorflow_vcjob.yaml中,任务部署在vcjob命名空间下,因此需要在管理节点执行以下命令,为训练任务创建命名空间。如果任务创建到非默认的命名空间,则需要根据实际情况创建命名空间。
kubectl create namespace vcjob
- 在管理节点示例YAML所在路径,执行以下命令,使用YAML下发训练任务。
kubectl apply -f XXX.yaml
如果下发任务成功后,又修改了任务YAML,需要先执行kubectl delete -f XXX.yaml命令删除原任务,再重新下发任务。
- 通过环境变量配置资源信息场景的示例如下:
kubectl apply -f tensorflow_standalone_acjob.yaml
回显示例如下:1
ascendjob.mindxdl.gitee.com/default-tensorflow-test created
- 通过文件配置资源信息场景的示例如下:
kubectl apply -f a800_tensorflow_vcjob.yaml
回显示例如下:1 2
configmap/rings-config-mindx-dls-test created job.batch.volcano.sh/mindx-dls-test created
- 通过环境变量配置资源信息场景的示例如下:

- 若下发训练任务后,任务一直处于Pending状态,可以参见训练任务处于Pending状态,原因:nodes are unavailable或者资源不足时,任务处于Pending状态章节进行处理。
- 若成功启动训练任务后,发现训练任务容器内部hccl.json文件处于initializing状态,可以参见hccl.json文件没有生成章节进行处理。
父主题: 通过命令行使用(Volcano)