查看任务进程

训练任务下发成功后,训练任务就可正常运行。可通过如下内容查看训练任务运行情况。

查看所有训练任务

查看当前节点上运行的所有训练任务,操作步骤如下。

  1. 登录管理节点,进入yaml文件所在路径。
  2. 执行以下命令,查看训练任务运行情况。

    kubectl get pods -A -o wide
    回显截图如下
    NAMESPACE        NAME                                       READY   STATUS    RESTARTS   AGE     IP                NODE         NOMINATED NODE   READINESS GATES
    ……
    vcjob            mindx-dls-test-default-test-0              1/1     Running   0          92s     192.168.70.118    ubuntu-155   <none>           <none>
    vcjob            mindx-dls-test-default-test-1              1/1     Running   0          92s     192.168.185.213   ubuntu-177   <none>           <none>

查看单个Pod的训练任务

查看其中一个Pod上运行的训练任务,操作步骤如下。

执行以下命令,查看训练任务运行情况。
kubectl logs mindx-dls-test-default-test-0 -n vcjob -f

回显截图如下,出现loss即表示任务正常运行。

查看是否存在ckpt文件

故障恢复功能是通过参考ckpt文件实现的,用户需要查看存储节点上是否存在ckpt文件。

用户可以等待训练任务运行一段时间后,查看设置的保存checkpoint的路径下是否存在周期性ckpt文件。操作步骤如下。

  1. 登录存储节点,执行以下步骤,进入ckpt文件路径。

    cd /data/atlas_dls/public/code/ResNet50_for_MindSpore_2.0.0-alpha_code/output/checkpoint/ckpt_0

  2. 执行以下命令,查看当前目录是否存在周期性ckpt文件。

    ll ./
    回显示例如下,说明存在周期性ckpt文件。
    total 400616
    drwx------  2 root root      4096 Mar 22 15:39 ./
    drwx------ 18 root root      4096 Mar 22 15:29 ../
    -r--------  1 root root 204715348 Mar 22 15:39 resnet-10_24.ckpt
    -r--------  1 root root 204715348 Mar 22 15:39 resnet-5_24.ckpt
    -rw-------  1 root root    775248 Mar 22 15:39 resnet-graph.meta