任务信息

tor-share-cm

表1 tor-share-cm

名称

作用

取值

备注

IsHealthy

节点对应的交换机状态

字符串

-

IsSharedTor

节点对应的交换机属性

字符串

-

NodeIp

任节点ip

字符串

-

NodeName

节点名称

字符串

-

JobName

任务名称

字符串

-

vcjob-fault-npu-cm

表2 vcjob-fault-npu-cm字段说明

名称

作用

取值

备注

fault-node

故障节点信息

-

-

- NodeName

节点名称

字符串

-

- UpdateTime

-

64位整数类型

-

- UnhealthyNPU

故障节点上芯片故障的芯片集合

字符串切片

-

- NetworkUnhealthyNPU

故障节点上网络故障的芯片集合

字符串切片

-

- NodeDEnable

节点状态检测开关是否打开

  • True
  • False

-

- NodeHealthState

节点健康状态

字符串

-

FaultDeviceList

-

-

-

- fault_type

故障类型对象

  • CardUnhealthy:芯片故障
  • CardNetworkUnhealthy:芯片网络故障
  • NodeUnhealthy:节点故障

-

- npu_name

故障的芯片名称,节点故障时为空

字符串

-

- fault_level

故障处理类型,节点故障时取值为空

  • NotHandleFault:不做处理
  • RestartRequest:推理场景需要重新执行推理请求,训练场景重新执行训练业务
  • RestartBusiness:需要重新执行业务
  • FreeRestartNPU:影响业务执行,待芯片空闲时需复位芯片
  • RestartNPU:直接复位芯片并重新执行业务
  • SeparateNPU:隔离芯片
  • PreSeparateNPU:预隔离芯片,会根据训练任务实际运行情况判断是否重调度
说明:

fault_level、fault_handling和large_model_fault_level参数功能一致,推荐使用fault_handling。

- fault_handling

- large_model_fault_level

- fault_code

故障码,由英文逗号拼接而成的字符串

字符串

  • Disconnected:芯片网络不连通故障。
  • heartbeatTimeOut:节点状态丢失故障

remain-retry-times

任务剩余可重调度信息

-

-

- UUID

任务UID

字符串

-

- Times

任务剩余可重调度次数

整数类型

-

reset-config-<任务名称>

表3 reset-config-<job-name>

字段名称

名称

作用

取值

备注

reset.json

RankList

芯片列表

-

-

RankId

故障任务使用的rank信息

整数类型

-

LogicId

芯片逻辑ID

32位整数类型

-

Status

芯片状态

字符串

-

Policy

热复位策略

字符串

-

InitialPolicy

初始热复位策略

字符串

-

ErrorCode

10进制故障码

64位整型数组

-

GracefulExit

管理训练进程

0或1。

  • 取值为1,杀死所有训练进程。
  • 取值为0,不做处理。

-

FaultFlushing

告知Elastic Agent当前是否有故障正在刷新。

取值为true或false。

  • true:表示有故障正在刷新。
  • false表示当前无故障刷新。

Elastic Agent需要等待该字段为false且故障RankList无本节点故障时才会拉起训练进程。

ErrorCodeHex

16进制故障码

字符串

-

restartType

-

reset.json更新的类型

podReschedule或hotReset

单pod重调度情况下取值为podReschedule,热恢复场景下取值为hotReset

mindx-dl/job-reschedule-reason

该configmap用于记录任务重调度历史信息,默认情况下会保存任务最近的十次重调度记录,当configmap内容超过950Kb时会依次删减每个任务中发生时间最早的记录。

表4 任务字段说明

字段名称

名称

作用

取值

备注

任务ns/任务名

-

标记执行重调度的任务名称。

字符串

-

JobID

任务ID

字符串

-

TotalRescheduleTimes

该任务在Volcano本次生命周期内记录的重调度总次数

整数

-

RescheduleRecords

记录本任务重调度的具体信息。

-

-

表5 RescheduleRecords说明

字段名称

名称

作用

取值

备注

RescheduleRecords

LogFileFormatTime

Volcano日志格式记录的重调度时间

字符串

-

RescheduleTimeStamp

重调度发生的时间戳

字符串

-

ReasonOfTask

记录本次重调度的具体信息。

-

-

表6 ReasonOfTask说明

字段名称

名称

作用

取值

备注

ReasonOfTask

RescheduleReason

重调度原因

字符串

-

PodName

本次重调度首先触发的pod

字符串

-

NodeName

节点名称

字符串

本次重调度首先触发的node。

NodeRankIndex

本次重调度首先触发的node在训练中所属rank

字符串

-