任务信息

tor-share-cm

表1 tor-share-cm
名称	作用	取值	备注
IsHealthy	节点对应的交换机状态	字符串	-
IsSharedTor	节点对应的交换机属性	字符串	-
NodeIp	任节点ip	字符串	-
NodeName	节点名称	字符串	-
JobName	任务名称	字符串	-

vcjob-fault-npu-cm

表2 vcjob-fault-npu-cm字段说明
名称	作用	取值	备注
fault-node	故障节点信息	-	-
- NodeName	节点名称	字符串	-
- UpdateTime	-	64位整数类型	-
- UnhealthyNPU	故障节点上芯片故障的芯片集合	字符串切片	-
- NetworkUnhealthyNPU	故障节点上网络故障的芯片集合	字符串切片	-
- NodeDEnable	节点状态检测开关是否打开	True False	-
- NodeHealthState	节点健康状态	字符串	-
FaultDeviceList	-	-	-
- fault_type	故障类型对象	CardUnhealthy：芯片故障 CardNetworkUnhealthy：芯片网络故障 NodeUnhealthy：节点故障	-
- npu_name	故障的芯片名称，节点故障时为空	字符串	-
- fault_level	故障处理类型，节点故障时取值为空	NotHandleFault：不做处理 RestartRequest：推理场景需要重新执行推理请求，训练场景重新执行训练业务 RestartBusiness：需要重新执行业务 FreeRestartNPU：影响业务执行，待芯片空闲时需复位芯片 RestartNPU：直接复位芯片并重新执行业务 SeparateNPU：隔离芯片 PreSeparateNPU：预隔离芯片，会根据训练任务实际运行情况判断是否重调度	说明： fault_level、fault_handling和large_model_fault_level参数功能一致，推荐使用fault_handling。
- fault_handling
- large_model_fault_level
- fault_code	故障码，由英文逗号拼接而成的字符串	字符串	Disconnected：芯片网络不连通故障。 heartbeatTimeOut：节点状态丢失故障
remain-retry-times	任务剩余可重调度信息	-	-
- UUID	任务UID	字符串	-
- Times	任务剩余可重调度次数	整数类型	-

reset-config-<任务名称>

表3 reset-config-*<job-name>*
字段名称	名称	作用	取值	备注
reset.json	RankList	芯片列表	-	-
	RankId	故障任务使用的rank信息	整数类型	-
	LogicId	芯片逻辑ID	32位整数类型	-
	Status	芯片状态	字符串	-
	Policy	热复位策略	字符串	-
	InitialPolicy	初始热复位策略	字符串	-
	ErrorCode	10进制故障码	64位整型数组	-
	GracefulExit	管理训练进程	0或1。取值为1，杀死所有训练进程。取值为0，不做处理。	-
	FaultFlushing	告知Elastic Agent当前是否有故障正在刷新。	取值为true或false。 true：表示有故障正在刷新。 false表示当前无故障刷新。	Elastic Agent需要等待该字段为false且故障RankList无本节点故障时才会拉起训练进程。
	ErrorCodeHex	16进制故障码	字符串	-
restartType	-	reset.json更新的类型	podReschedule或hotReset	单pod重调度情况下取值为podReschedule，热恢复场景下取值为hotReset

mindx-dl/job-reschedule-reason

该configmap用于记录任务重调度历史信息，默认情况下会保存任务最近的十次重调度记录，当configmap内容超过950Kb时会依次删减每个任务中发生时间最早的记录。

表4 任务字段说明
字段名称	名称	作用	取值	备注
任务ns/任务名	-	标记执行重调度的任务名称。	字符串	-
	JobID	任务ID	字符串	-
	TotalRescheduleTimes	该任务在Volcano本次生命周期内记录的重调度总次数	整数	-
	RescheduleRecords	记录本任务重调度的具体信息。	-	-

表5 RescheduleRecords说明
字段名称	名称	作用	取值	备注
RescheduleRecords	LogFileFormatTime	按Volcano日志格式记录的重调度时间	字符串	-
	RescheduleTimeStamp	重调度发生的时间戳	字符串	-
	ReasonOfTask	记录本次重调度的具体信息。	-	-

表6 ReasonOfTask说明
字段名称	名称	作用	取值	备注
ReasonOfTask	RescheduleReason	重调度原因	字符串	-
	PodName	本次重调度首先触发的pod	字符串	-
	NodeName	节点名称	字符串	本次重调度首先触发的node。
	NodeRankIndex	本次重调度首先触发的node在训练中所属rank	字符串	-

父主题： Volcano