昇腾社区首页
中文
注册

任务信息

tor-share-cm

表1 tor-share-cm

名称

作用

取值

备注

IsHealthy

节点对应的交换机状态

字符串

-

IsSharedTor

节点对应的交换机属性

字符串

-

NodeIp

任节点ip

字符串

-

NodeName

节点名称

字符串

-

JobName

任务名称

字符串

-

vcjob-fault-npu-cm

表2 vcjob-fault-npu-cm字段说明

名称

作用

取值

备注

fault-node

故障节点信息

-

-

- NodeName

节点名称

字符串

-

- UpdateTime

-

64位整数类型

-

- UnhealthyNPU

故障节点上芯片故障的芯片集合

字符串切片

-

- NetworkUnhealthyNPU

故障节点上网络故障的芯片集合

字符串切片

-

- NodeDEnable

节点心跳检测开关是否打开

  • True
  • False

-

- NodeHealthState

节点健康状态

字符串

-

- HeartbeatInterval

节点心跳上报间隔时间

整数类型

-

- OldHeartbeatTime

-

64位整数类型

-

- NewHeartbeatTime

-

64位整数类型

-

- UpdateHeartbeatTime

-

64位整数类型

-

FaultDeviceList

-

-

-

- fault_type

故障类型对象

  • CardUnhealthy:芯片故障
  • CardNetworkUnhealthy:芯片网络故障
  • NodeUnhealthy:节点故障

-

- npu_name

故障的芯片名称,节点故障时为空

字符串

-

- fault_level

故障处理类型,节点故障时取值为空

  • NotHandleFault:不做处理
  • RestartRequest:推理场景需要重新执行推理请求,训练场景重新执行训练业务
  • RestartBusiness:需要重新执行业务
  • FreeRestartNPU:直接复位芯片并重新执行业务
  • RestartNPU:直接复位芯片并重新执行业务
  • SeparateNPU:隔离芯片
  • PreSeparateNPU:预隔离芯片,会根据训练任务实际运行情况判断是否重调度
说明:

fault_level、fault_handling和large_model_fault_level参数功能一致,推荐使用fault_handling。

- fault_handling

- large_model_fault_level

- fault_code

故障码,由英文逗号拼接而成的字符串

字符串

  • Disconnected:芯片网络不连通故障。
  • heartbeatTimeOut:节点心跳丢失故障

remain-retry-times

任务剩余可重调度信息

-

-

- UUID

任务UID

字符串

-

- Times

任务剩余可重调度次数

整数类型

-

reset-config-<任务名称>

表3 reset-config-<job-name>

字段名称

名称

作用

取值

备注

reset.json

RankList

芯片列表

-

-

RankId

故障任务使用的rank信息

整数类型

-

LogicId

芯片逻辑ID

32位整数类型

-

Status

芯片状态

字符串

-

Policy

热复位策略

字符串

-

InitialPolicy

初始热复位策略

字符串

-

ErrorCode

10进制故障码

64位整型数组

-

ErrorCodeHex

16进制故障码

字符串

-

restartType

-

reset.json更新的类型

podReschedule或hotReset

单pod重调度情况下取值为podReschedule,热恢复场景下取值为hotReset