VolcanoJob
- VolcanoJob接口由开源组件Volcano提供,DL的Volcano组件未改动开源接口,请参考Volcano开源社区了解详情。
- 对于volcano-scheduler和volcano-controller组件Pod开放的接口(开源组件本身定义),做出如下说明。
表1 集群调度volcano组件开放接口列表 访问方式
协议
方法
作用
所属组件
http://podIP:11252/healthz
http
Get
健康检查端口
volcano-controller
http://podIP:11251/healthz
http
Get
健康检查端口
volcano-scheduler
http://volcano-scheduler-serviceIP:8080/metrics
http
Get
Prometheus信息收集端口
volcano-scheduler
- Volcano收集了内部的芯片故障、芯片网络故障、节点故障,将其作为对外的信息放在K8s的ConfigMap中,以供外部查询和使用。
查询命令为kubectl describe cm -n volcano-system vcjob-fault-npu-cm,命令回显的参数说明见表2。
表2 回显参数说明 参数名
描述
fault-node
节点维度的故障信息
NodeName
节点名称
FaultDeviceList
故障列表
- fault_type
故障类型对象,对象包含fault_type、npu_name、large_model_fault_level、fault_level、fault_handling和fault_code等6个字段
- NodeUnhealthy:节点故障
- CardUnhealthy:芯片故障
- CardNetworkUnhealthy:芯片网络故障
- npu_name
故障的芯片名称,节点故障时为空
- large_model_fault_level
故障处理类型,节点故障时取值为空
- NotHandleFault:不做处理
- RestartRequest:推理场景需要重新执行推理请求,训练场景重新执行训练业务
- RestartBusiness:需要重新执行业务
- FreeRestartNPU:直接复位芯片并重新执行业务
- RestartNPU:直接复位芯片并重新执行业务
- SeparateNPU:隔离芯片
- PreSeparateNPU:预隔离芯片,根据训练任务实际运行情况判断是否重调度
说明:large_model_fault_level、fault_level和fault_handling参数功能一致,推荐使用fault_handling。
- fault_level
- fault_handling
- fault_code
故障码,由英文逗号拼接而成的字符串
- Disconnected:芯片网络不连通故障
- heartbeatTimeOut:节点心跳丢失故障
FaultTasks
任务维度的故障信息列表,包含Reason字段
- Reason
故障原因,字段就是故障列表下的五个字段组成的字符串
父主题: API参考