查看任务进程
训练任务下发成功后,训练任务就可正常运行。可通过如下内容查看训练任务运行情况。
查看所有训练任务
查看当前节点上运行的所有训练任务,操作步骤如下。
- 登录管理节点,进入YAML文件所在路径。
- 执行以下命令,查看训练任务运行情况。
kubectl get pods -A -o wide
回显示例如下。1 2 3 4 5
NAMESPACE NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES …… vcjob mindx-dls-test-default-test-0 1/1 Running 0 92s 192.168.70.118 ubuntu-155 <none> <none> vcjob mindx-dls-test-default-test-0 1/1 Running 0 92s 192.168.185.213 ubuntu-177 <none> <none> ……
查看单个Pod的训练任务
查看其中一个Pod上运行的训练任务,操作步骤如下。
执行以下命令,查看训练任务运行情况。
kubectl logs mindx-dls-test-default-test-0 -n vcjob -f
回显示例如下,出现loss即表示任务正常运行。
查看是否存在CKPT文件
故障恢复功能是通过参考CKPT文件实现的,用户需要查看存储节点上是否存在CKPT文件。
用户可以等待训练任务运行时间超过用户设置的保存CKPT文件的时间后,查看设置的保存CKPT文件的路径下是否存在周期性CKPT文件,操作步骤如下。
- 登录存储节点,执行以下步骤,进入CKPT文件路径。
cd /data/atlas_dls/public/code/resnet/output/resnet50/imagenet2012/ckpt0
- 执行以下命令,查看当前目录是否存在周期性CKPT文件。
ll ./
回显示例如下,说明存在周期性CKPT文件。1 2 3 4 5 6
total 400616 drwx------ 2 root root 4096 Mar 22 15:39 ./ drwx------ 18 root root 4096 Mar 22 15:29 ../ -r-------- 1 root root 204715348 Mar 22 15:39 resnet50-10_24.ckpt -r-------- 1 root root 204715348 Mar 22 15:39 resnet50-5_24.ckpt -rw------- 1 root root 775248 Mar 22 15:39 resnet50-graph.meta
- (可选)如果使用临终遗言,可以在保存CKPT的路径下,执行以下命令,查看当前目录是否存在临终CKPT文件。
ll ./
回显示例如下,说明存在临终CKPT文件。1 2 3
total 8 drwx-xr-x- 18 root root 8192 Jun 22 15:39 iter_0000016 -rw-r--r-- 1 root root 2 Jun 22 15:39 latest_checkpointed_iteration.txt
父主题: 通过命令行使用