名称 |
作用 |
取值 |
备注 |
---|---|---|---|
IsHealthy |
节点对应的交换机状态 |
字符串 |
- |
IsSharedTor |
节点对应的交换机属性 |
字符串 |
- |
NodeIp |
任节点ip |
字符串 |
- |
NodeName |
节点名称 |
字符串 |
- |
JobName |
任务名称 |
字符串 |
- |
名称 |
作用 |
取值 |
备注 |
---|---|---|---|
fault-node |
故障节点信息 |
- |
- |
- NodeName |
节点名称 |
字符串 |
- |
- UpdateTime |
- |
64位整数类型 |
- |
- UnhealthyNPU |
故障节点上芯片故障的芯片集合 |
字符串切片 |
- |
- NetworkUnhealthyNPU |
故障节点上网络故障的芯片集合 |
字符串切片 |
- |
- NodeDEnable |
节点状态检测开关是否打开 |
|
- |
- NodeHealthState |
节点健康状态 |
字符串 |
- |
FaultDeviceList |
- |
- |
- |
- fault_type |
故障类型对象 |
|
- |
- npu_name |
故障的芯片名称,节点故障时为空 |
字符串 |
- |
- fault_level |
故障处理类型,节点故障时取值为空 |
|
说明:
fault_level、fault_handling和large_model_fault_level参数功能一致,推荐使用fault_handling。 |
- fault_handling |
|||
- large_model_fault_level |
|||
- fault_code |
故障码,由英文逗号拼接而成的字符串 |
字符串 |
|
remain-retry-times |
任务剩余可重调度信息 |
- |
- |
- UUID |
任务UID |
字符串 |
- |
- Times |
任务剩余可重调度次数 |
整数类型 |
- |
字段名称 |
名称 |
作用 |
取值 |
备注 |
---|---|---|---|---|
reset.json |
RankList |
芯片列表 |
- |
- |
RankId |
故障任务使用的rank信息 |
整数类型 |
- |
|
LogicId |
芯片逻辑ID |
32位整数类型 |
- |
|
Status |
芯片状态 |
字符串 |
- |
|
Policy |
热复位策略 |
字符串 |
- |
|
InitialPolicy |
初始热复位策略 |
字符串 |
- |
|
ErrorCode |
10进制故障码 |
64位整型数组 |
- |
|
GracefulExit |
管理训练进程 |
0或1。
|
- |
|
FaultFlushing |
告知Elastic Agent当前是否有故障正在刷新。 |
取值为true或false。
|
Elastic Agent需要等待该字段为false且故障RankList无本节点故障时才会拉起训练进程。 |
|
ErrorCodeHex |
16进制故障码 |
字符串 |
- |
|
restartType |
- |
reset.json更新的类型 |
podReschedule或hotReset |
单pod重调度情况下取值为podReschedule,热恢复场景下取值为hotReset |
该configmap用于记录任务重调度历史信息,默认情况下会保存任务最近的十次重调度记录,当configmap内容超过950Kb时会依次删减每个任务中发生时间最早的记录。
字段名称 |
名称 |
作用 |
取值 |
备注 |
---|---|---|---|---|
任务ns/任务名 |
- |
标记执行重调度的任务名称。 |
字符串 |
- |
JobID |
任务ID |
字符串 |
- |
|
TotalRescheduleTimes |
该任务在Volcano本次生命周期内记录的重调度总次数 |
整数 |
- |
|
RescheduleRecords |
记录本任务重调度的具体信息。 |
- |
- |
字段名称 |
名称 |
作用 |
取值 |
备注 |
---|---|---|---|---|
RescheduleRecords |
LogFileFormatTime |
按Volcano日志格式记录的重调度时间 |
字符串 |
- |
RescheduleTimeStamp |
重调度发生的时间戳 |
字符串 |
- |
|
ReasonOfTask |
记录本次重调度的具体信息。 |
- |
- |
字段名称 |
名称 |
作用 |
取值 |
备注 |
---|---|---|---|---|
ReasonOfTask |
RescheduleReason |
重调度原因 |
字符串 |
- |
PodName |
本次重调度首先触发的pod |
字符串 |
- |
|
NodeName |
节点名称 |
字符串 |
本次重调度首先触发的node。 |
|
NodeRankIndex |
本次重调度首先触发的node在训练中所属rank |
字符串 |
- |