查看断点续训运行结果

当节点发生故障时,Volcano会将该训练任务调度到其他满足条件的节点上继续运行。

故障时重调度情况

登录管理节点,执行以下命令查看训练任务运行情况。
~# kubectl get pods -A -o wide
回显示例如下。该示例表示当前node1节点上发生故障,此时Volcano组件已经将训练任务调度到node2节点上。
NAMESPACE        NAME                                       READY   STATUS              RESTARTS   AGE     IP                NODE         NOMINATED NODE   READINESS GATES
……
vcjob            mindx-dls-test-default-test-0              0/1     ContainerCreating   0          7s      <none>            node1   <none>           <none>
vcjob            mindx-dls-test-default-test-1              0/1     ContainerCreating   0          7s      <none>            node2   <none>           <none>
……

查看其中一个Pod运行情况

执行以下命令查看单个Pod的训练任务运行情况。
~# kubectl logs mindx-dls-test-default-test-0 -n vcjob -f