任务信息
tor-share-cm
名称  | 
作用  | 
取值  | 
备注  | 
|---|---|---|---|
IsHealthy  | 
节点对应的交换机状态  | 
字符串  | 
-  | 
IsSharedTor  | 
节点对应的交换机属性  | 
字符串  | 
-  | 
NodeIP  | 
节点IP  | 
字符串  | 
-  | 
NodeName  | 
节点名称  | 
字符串  | 
-  | 
JobName  | 
任务名称  | 
字符串  | 
-  | 
vcjob-fault-npu-cm
名称  | 
作用  | 
取值  | 
备注  | 
|---|---|---|---|
fault-node  | 
故障节点信息  | 
-  | 
-  | 
- NodeName  | 
节点名称  | 
字符串  | 
-  | 
- UpdateTime  | 
-  | 
64位整数类型  | 
-  | 
- UnhealthyNPU  | 
故障节点上芯片故障的芯片集合  | 
字符串切片  | 
-  | 
- NetworkUnhealthyNPU  | 
故障节点上网络故障的芯片集合  | 
字符串切片  | 
-  | 
- NodeDEnable  | 
节点状态检测开关是否打开  | 
  | 
-  | 
- NodeHealthState  | 
节点健康状态  | 
字符串  | 
-  | 
FaultDeviceList  | 
-  | 
-  | 
-  | 
- fault_type  | 
故障类型对象  | 
  | 
-  | 
- npu_name  | 
故障的芯片名称,节点故障时为空  | 
字符串  | 
-  | 
- fault_level  | 
故障处理类型,节点故障时取值为空  | 
  | 
 说明:  fault_level、fault_handling和large_model_fault_level参数功能一致,推荐使用fault_handling。  | 
- fault_handling  | 
|||
- large_model_fault_level  | 
|||
- fault_code  | 
故障码,由英文逗号拼接而成的字符串  | 
字符串  | 
  | 
remain-retry-times  | 
任务剩余可重调度信息  | 
-  | 
-  | 
- UUID  | 
任务UID  | 
字符串  | 
-  | 
- Times  | 
任务剩余可重调度次数  | 
整数类型  | 
-  | 
reset-config-<任务名称>
字段名称  | 
名称  | 
作用  | 
取值  | 
备注  | 
|---|---|---|---|---|
reset.json  | 
RankList  | 
芯片列表  | 
-  | 
-  | 
RankId  | 
故障任务使用的rank信息  | 
整数类型  | 
-  | 
|
LogicId  | 
芯片逻辑ID  | 
32位整数类型  | 
-  | 
|
Status  | 
芯片状态  | 
字符串  | 
-  | 
|
Policy  | 
热复位策略  | 
字符串  | 
-  | 
|
InitialPolicy  | 
初始热复位策略  | 
字符串  | 
-  | 
|
ErrorCode  | 
十进制故障码  | 
64位整型数组  | 
-  | 
|
GracefulExit  | 
管理训练进程  | 
0或1。 
  | 
-  | 
|
FaultFlushing  | 
告知Elastic Agent当前是否有故障正在刷新。  | 
取值为true或false。 
  | 
Elastic Agent需要等待该字段为false且故障RankList无本节点故障时才会拉起训练进程。  | 
|
ErrorCodeHex  | 
十六进制故障码  | 
字符串  | 
-  | 
|
restartType  | 
-  | 
reset.json更新的类型  | 
podReschedule或hotReset  | 
单pod重调度情况下取值为podReschedule,热恢复场景下取值为hotReset  | 
mindx-dl/job-reschedule-reason
该ConfigMap用于记录任务重调度历史信息,默认情况下会保存任务最近的十次重调度记录,当ConfigMap内容超过950Kb时会依次删减每个任务中发生时间最早的记录。
字段名称  | 
名称  | 
作用  | 
取值  | 
备注  | 
|---|---|---|---|---|
任务ns/任务名  | 
-  | 
标记执行重调度的任务名称。  | 
字符串  | 
-  | 
JobID  | 
任务ID  | 
字符串  | 
-  | 
|
TotalRescheduleTimes  | 
该任务在Volcano本次生命周期内记录的重调度总次数  | 
整数  | 
-  | 
|
RescheduleRecords  | 
记录本任务重调度的具体信息。  | 
-  | 
-  | 
字段名称  | 
名称  | 
作用  | 
取值  | 
备注  | 
|---|---|---|---|---|
RescheduleRecords  | 
LogFileFormatTime  | 
按Volcano日志格式记录的重调度时间  | 
字符串  | 
-  | 
RescheduleTimeStamp  | 
重调度发生的时间戳  | 
字符串  | 
-  | 
|
ReasonOfTask  | 
记录本次重调度的具体信息。  | 
-  | 
-  | 
字段名称  | 
名称  | 
作用  | 
取值  | 
备注  | 
|---|---|---|---|---|
ReasonOfTask  | 
RescheduleReason  | 
重调度原因  | 
字符串  | 
-  | 
PodName  | 
本次重调度首先触发的pod  | 
字符串  | 
-  | 
|
NodeName  | 
节点名称  | 
字符串  | 
本次重调度首先触发的node。  | 
|
NodeRankIndex  | 
本次重调度首先触发的node在训练中所属rank  | 
字符串  | 
-  |