任务信息

fault-config-<任务名称>

表1 fault-config-任务名称

字段名称

含义

取值

备注

fault-npus

故障任务使用的故障芯片的rank信息

字符串

-

env-config-<任务名称>

表2 env-config-任务名称

字段名称

含义

取值

备注

master-addr

训练任务的master、scheduler的pod ip

字符串

-

reset-config-<任务名称>

表3 reset-config-<job-name>

字段名称

参数

含义

取值

备注

reset.json

RankList

芯片列表

-

-

RankId

故障任务使用的rank信息

整数类型

-

LogicId

芯片逻辑ID

32位整数类型

-

Status

芯片状态

字符串

-

Policy

热复位策略

字符串

-

InitialPolicy

初始热复位策略

字符串

-

ErrorCode

10进制故障码

64位整型数组

-

ErrorCodeHex

16进制故障码

字符串

-

GracefulExit

管理训练进程

0或1。

  • 取值为1,杀死所有训练进程。
  • 取值为0,不做处理。

-

FaultFlushing

告知Elastic Agent当前是否有故障正在刷新。

取值为true或false。

  • true:表示有故障正在刷新。
  • false表示当前无故障刷新。

Elastic Agent需要等待该字段为false且故障RankList无本节点故障时才会拉起训练进程。

restartType

-

reset.json更新的类型

podReschedule或hotReset

单pod重调度情况下取值为podReschedule,热恢复场景下取值为hotReset。

data-trace ConfigMap

存储当前任务的各类打点类型的开关状态,由Ascend Device Plugin挂载到计算节点存储,训练容器挂载该文件后,由TaskD读取后对各类打点数据进行开关。

表4 data-trace ConfigMap字段说明

参数名称

含义

取值

类型

Communication

标识通信算子

on/off

string

Step

标识step时延

on/off

string

SaveCheckpoint

标识saveCkpt耗时

on/off

string

FP

标识前向传播数据

on/off

string

DataLoader

标识dataloader耗时

on/off

string

  • 该ConfigMap需要和训练任务在同一命名空间,且命名为data-trace-<任务名称>,包括标签reset=true。
  • 该ConfigMap由Ascend Device Plugin挂载到训练节点的/user/cluster-info/datatrace-config/命名空间.data-trace-任务名称/*的文件夹下,文件名为profilingSwitch。
  • 如用户未创建该ConfigMap,在首次调用gRPC接口ModifyTrainingDataTraceSwitch时,ClusterD将尝试自动创建该ConfigMap。
  • 用户如需使用该功能,应将节点上的profilingSwitch文件,使用hostPath方式挂载进入容器内的/user/cluster-info/datatrace-config/目录。
  • 当前Step、SaveCheckpoint、FP、DataLoader为默认开启,且四类只能同步开启关闭,当五类数据全为off时关闭所有打点,否则默认开启上述四类,同时根据通信算子开关状态对其进行开启或关闭。