昇腾社区首页
中文
注册

VolcanoJob

  1. VolcanoJob接口由开源组件Volcano提供,DL的Volcano组件未改动开源接口,请参考Volcano开源社区了解详情。
  2. 对于volcano-scheduler和volcano-controller组件Pod开放的接口(开源组件本身定义),做出如下说明。
    表1 集群调度volcano组件开放接口列表

    访问方式

    协议

    方法

    作用

    所属组件

    http://podIP:11252/healthz

    http

    Get

    健康检查端口

    volcano-controller

    http://podIP:11251/healthz

    http

    Get

    健康检查端口

    volcano-scheduler

    http://volcano-scheduler-serviceIP:8080/metrics

    http

    Get

    Prometheus信息收集端口

    volcano-scheduler

    华为云的CCI服务提供了更为详细的VolcanoJob说明,可参见《云容器实例 API 参考》中“Kubernetes API > VolcanoJob”章节了解相关内容。

  3. Volcano收集了内部的芯片故障、芯片网络故障、节点故障,将其作为对外的信息放在K8sConfigMap中,以供外部查询和使用。

    查询命令为kubectl describe cm -n volcano-system vcjob-fault-npu-cm,命令回显的参数说明见表2

    表2 回显参数说明

    参数名

    描述

    fault-node

    节点维度的故障信息

    NodeName

    节点名称

    FaultDeviceList

    故障列表

    - fault_type

    故障类型对象,对象包含fault_type、npu_name、large_model_fault_level、fault_level、fault_handling和fault_code等6个字段

    • NodeUnhealthy:节点故障
    • CardUnhealthy:芯片故障
    • CardNetworkUnhealthy:芯片网络故障

    - npu_name

    故障的芯片名称,节点故障时为空

    - large_model_fault_level

    故障处理类型,节点故障时取值为空

    • NotHandleFault:不做处理
    • RestartRequest:推理场景需要重新执行推理请求,训练场景重新执行训练业务
    • RestartBusiness:需要重新执行业务
    • FreeRestartNPU:直接复位芯片并重新执行业务
    • RestartNPU:直接复位芯片并重新执行业务
    • SeparateNPU:隔离芯片
    • PreSeparateNPU:预隔离芯片,根据训练任务实际运行情况判断是否重调度
    说明:

    large_model_fault_level、fault_level和fault_handling参数功能一致,推荐使用fault_handling。

    - fault_level

    - fault_handling

    - fault_code

    故障码,由英文逗号拼接而成的字符串

    • Disconnected:芯片网络不连通故障
    • heartbeatTimeOut:节点心跳丢失故障

    FaultTasks

    任务维度的故障信息列表,包含Reason字段

    - Reason

    故障原因,字段就是故障列表下的五个字段组成的字符串