昇腾社区首页
中文
注册

任务信息

fault-config-<任务名称>

表1 fault-config-任务名称

名称

含义

取值

备注

fault-npus

故障任务使用的故障芯片的rank信息

字符串

-

env-config-<任务名称>

表2 env-config-任务名称

名称

含义

取值

备注

master-addr

训练任务的master、scheduler的pod ip

字符串

-

reset-config-<任务名称>

表3 reset-config-<job-name>

字段名称

名称

含义

取值

备注

reset.json

RankList

芯片列表

-

-

RankId

故障任务使用的rank信息

整数类型

-

LogicId

芯片逻辑ID

32位整数类型

-

Status

芯片状态

字符串

-

Policy

热复位策略

字符串

-

InitialPolicy

初始热复位策略

字符串

-

ErrorCode

10进制故障码

64位整型数组

-

ErrorCodeHex

16进制故障码

字符串

-

GracefulExit

管理训练进程

0或1。

  • 取值为1,杀死所有训练进程。
  • 取值为0,不做处理。

-

FaultFlushing

告知Elastic Agent当前是否有故障正在刷新。

取值为true或false。

  • true:表示有故障正在刷新。
  • false表示当前无故障刷新。

Elastic Agent需要等待该字段为false且故障RankList无本节点故障时才会拉起训练进程。

restartType

-

reset.json更新的类型

podReschedule或hotReset

单pod重调度情况下取值为podReschedule,热恢复场景下取值为hotReset。