查看推理卡故障重调度结果
当推理任务运行中出现故障时,Volcano会将该任务调度到其他NPU上。
操作步骤
执行以下命令,查看任务运行状况。
kubectl get pod --all-namespaces
回显示例如下,任务名称由resnetinfer1-2-scpr5变为resnetinfer1-2-xsdsf,表示故障重调度特性运行成功。该任务名称由随机字符串生成,以实际名称为准。
NAMESPACE NAME READY STATUS RESTARTS AGE ... default resnetinfer1-2-xsdsf 1/1 Running 0 10s ...
父主题: 通过命令行使用(Volcano)