任务信息
tor-share-cm
名称 |
作用 |
取值 |
备注 |
---|---|---|---|
IsHealthy |
节点对应的交换机状态 |
字符串 |
- |
IsSharedTor |
节点对应的交换机属性 |
字符串 |
- |
NodeIp |
任节点ip |
字符串 |
- |
NodeName |
节点名称 |
字符串 |
- |
JobName |
任务名称 |
字符串 |
- |
vcjob-fault-npu-cm
名称 |
作用 |
取值 |
备注 |
---|---|---|---|
fault-node |
故障节点信息 |
- |
- |
- NodeName |
节点名称 |
字符串 |
- |
- UpdateTime |
- |
64位整数类型 |
- |
- UnhealthyNPU |
故障节点上芯片故障的芯片集合 |
字符串切片 |
- |
- NetworkUnhealthyNPU |
故障节点上网络故障的芯片集合 |
字符串切片 |
- |
- NodeDEnable |
节点心跳检测开关是否打开 |
|
- |
- NodeHealthState |
节点健康状态 |
字符串 |
- |
- HeartbeatInterval |
节点心跳上报间隔时间 |
整数类型 |
- |
- OldHeartbeatTime |
- |
64位整数类型 |
- |
- NewHeartbeatTime |
- |
64位整数类型 |
- |
- UpdateHeartbeatTime |
- |
64位整数类型 |
- |
FaultDeviceList |
- |
- |
- |
- fault_type |
故障类型对象 |
|
- |
- npu_name |
故障的芯片名称,节点故障时为空 |
字符串 |
- |
- fault_level |
故障处理类型,节点故障时取值为空 |
|
说明: fault_level、fault_handling和large_model_fault_level参数功能一致,推荐使用fault_handling。 |
- fault_handling |
|||
- large_model_fault_level |
|||
- fault_code |
故障码,由英文逗号拼接而成的字符串 |
字符串 |
|
remain-retry-times |
任务剩余可重调度信息 |
- |
- |
- UUID |
任务UID |
字符串 |
- |
- Times |
任务剩余可重调度次数 |
整数类型 |
- |
reset-config-<任务名称>
字段名称 |
名称 |
作用 |
取值 |
备注 |
---|---|---|---|---|
reset.json |
RankList |
芯片列表 |
- |
- |
RankId |
故障任务使用的rank信息 |
整数类型 |
- |
|
LogicId |
芯片逻辑ID |
32位整数类型 |
- |
|
Status |
芯片状态 |
字符串 |
- |
|
Policy |
热复位策略 |
字符串 |
- |
|
InitialPolicy |
初始热复位策略 |
字符串 |
- |
|
ErrorCode |
10进制故障码 |
64位整型数组 |
- |
|
ErrorCodeHex |
16进制故障码 |
字符串 |
- |
|
restartType |
- |
reset.json更新的类型 |
podReschedule或hotReset |
单pod重调度情况下取值为podReschedule,热恢复场景下取值为hotReset |