任务信息

tor-share-cm

表1 tor-share-cm
名称	作用	取值	备注
IsHealthy	节点对应的交换机状态	字符串	-
IsSharedTor	节点对应的交换机属性	字符串	-
NodeIp	任节点ip	字符串	-
NodeName	节点名称	字符串	-
JobName	任务名称	字符串	-

vcjob-fault-npu-cm

表2 vcjob-fault-npu-cm字段说明
名称	作用	取值	备注
fault-node	故障节点信息	-	-
- NodeName	节点名称	字符串	-
- UpdateTime	-	64位整数类型	-
- UnhealthyNPU	故障节点上芯片故障的芯片集合	字符串切片	-
- NetworkUnhealthyNPU	故障节点上网络故障的芯片集合	字符串切片	-
- NodeDEnable	节点心跳检测开关是否打开	True False	-
- NodeHealthState	节点健康状态	字符串	-
- HeartbeatInterval	节点心跳上报间隔时间	整数类型	-
- OldHeartbeatTime	-	64位整数类型	-
- NewHeartbeatTime	-	64位整数类型	-
- UpdateHeartbeatTime	-	64位整数类型	-
FaultDeviceList	-	-	-
- fault_type	故障类型对象	CardUnhealthy：芯片故障 CardNetworkUnhealthy：芯片网络故障 NodeUnhealthy：节点故障	-
- npu_name	故障的芯片名称，节点故障时为空	字符串	-
- fault_level	故障处理类型，节点故障时取值为空	NotHandleFault：不做处理 RestartRequest：推理场景需要重新执行推理请求，训练场景重新执行训练业务 RestartBusiness：需要重新执行业务 FreeRestartNPU：直接复位芯片并重新执行业务 RestartNPU：直接复位芯片并重新执行业务 SeparateNPU：隔离芯片 PreSeparateNPU：预隔离芯片，会根据训练任务实际运行情况判断是否重调度	说明： fault_level、fault_handling和large_model_fault_level参数功能一致，推荐使用fault_handling。
- fault_handling
- large_model_fault_level
- fault_code	故障码，由英文逗号拼接而成的字符串	字符串	Disconnected：芯片网络不连通故障。 heartbeatTimeOut：节点心跳丢失故障
remain-retry-times	任务剩余可重调度信息	-	-
- UUID	任务UID	字符串	-
- Times	任务剩余可重调度次数	整数类型	-

reset-config-<任务名称>

表3 reset-config-*<job-name>*
字段名称	名称	作用	取值	备注
reset.json	RankList	芯片列表	-	-
	RankId	故障任务使用的rank信息	整数类型	-
	LogicId	芯片逻辑ID	32位整数类型	-
	Status	芯片状态	字符串	-
	Policy	热复位策略	字符串	-
	InitialPolicy	初始热复位策略	字符串	-
	ErrorCode	10进制故障码	64位整型数组	-
	ErrorCodeHex	16进制故障码	字符串	-
restartType	-	reset.json更新的类型	podReschedule或hotReset	单pod重调度情况下取值为podReschedule，热恢复场景下取值为hotReset

父主题： Volcano