昇腾社区首页
中文
注册
开发者
下载

查看任务进程

训练任务下发成功后,训练任务就可正常运行。可通过如下内容查看训练任务运行情况。

查看所有训练任务

查看当前节点上运行的所有训练任务,操作步骤如下。

  1. 登录管理节点,进入YAML文件所在路径。
  2. 执行以下命令,查看训练任务运行情况。
    kubectl get pods -A -o wide
    回显示例如下。
    1
    2
    3
    4
    NAMESPACE        NAME                                       READY   STATUS    RESTARTS   AGE   IP                NODE           NOMINATED NODE   READINESS GATES
    default          default-test-pytorch-master-0              1/1     Running   0          5s    xxx.xxx.xxx.xxx   node1          <none>           <none>
    default          default-test-pytorch-worker-0              1/1     Running   0          5s    xxx.xxx.xxx.xxx   node2          <none>           <none>
    ……
    

查看单个Pod的训练任务

查看其中一个Pod上运行的训练任务,操作步骤如下。

执行以下命令,查看训练任务运行情况。
kubectl logs default-test-pytorch-worker-0 -n default -f

回显示例如下,出现loss即表示任务正常运行。

查看是否存在CKPT文件

故障恢复功能是通过参考CKPT文件实现的,用户需要查看存储节点上是否存在CKPT文件。

用户可以等待训练任务运行时间超过用户设置的保存CKPT文件的时间后,查看设置的保存CKPT文件的路径下是否存在周期性CKPT文件,操作步骤如下。

  1. 登录存储节点,执行以下步骤,进入CKPT文件路径。
    cd /data/atlas_dls/public/code/LLAMA2_for_PyTorch_2.7_code/output/ckpt
  2. 执行以下命令,查看当前目录是否存在周期性CKPT文件。
    ll ./
    回显示例如下,说明存在周期性CKPT文件。
    1
    2
    3
    total 8
    drwx-xr-x-  18 root root   8192 Jun 22 18:39 iter_0000100
    -rw-r--r--  1 root root    2    Jun 22 18:39 latest_checkpointed_iteration.txt
    
  3. (可选)如果使用临终遗言,可以在保存CKPT的路径下,执行以下命令,查看当前目录是否存在临终CKPT文件。
    ll ./
    回显示例如下,说明存在临终CKPT文件。
    1
    2
    3
    total 8
    drwx-xr-x-  18 root root   8192 Jun 22 15:39 iter_0000009
    -rw-r--r--  1 root root    2    Jun 22 15:39 latest_checkpointed_iteration.txt