开发者
资源

查看推理卡故障重调度结果

当推理任务运行中出现故障时,Volcano会将该任务调度到其他NPU上。

操作步骤

执行以下命令,查看任务运行状况。
kubectl get pod --all-namespaces

回显示例如下,任务名称由resnetinfer1-2-scpr5变为resnetinfer1-2-xsdsf,表示故障重调度特性运行成功。该任务名称由随机字符串生成,以实际名称为准。

NAMESPACE        NAME                                       READY   STATUS    RESTARTS   AGE
...
default      resnetinfer1-2-xsdsf                      1/1     Running   0          10s
...