任务信息
fault-config-<任务名称>
字段名称  | 
含义  | 
取值  | 
备注  | 
|---|---|---|---|
fault-npus  | 
故障任务使用的故障芯片的rank信息  | 
字符串  | 
-  | 
env-config-<任务名称>
字段名称  | 
含义  | 
取值  | 
备注  | 
|---|---|---|---|
master-addr  | 
训练任务的master、scheduler的pod ip  | 
字符串  | 
-  | 
reset-config-<任务名称>
字段名称  | 
参数  | 
含义  | 
取值  | 
备注  | 
|---|---|---|---|---|
reset.json  | 
RankList  | 
芯片列表  | 
-  | 
-  | 
RankId  | 
故障任务使用的rank信息  | 
整数类型  | 
-  | 
|
LogicId  | 
芯片逻辑ID  | 
32位整数类型  | 
-  | 
|
Status  | 
芯片状态  | 
字符串  | 
-  | 
|
Policy  | 
热复位策略  | 
字符串  | 
-  | 
|
InitialPolicy  | 
初始热复位策略  | 
字符串  | 
-  | 
|
ErrorCode  | 
十进制故障码  | 
64位整型数组  | 
-  | 
|
ErrorCodeHex  | 
十六进制故障码  | 
字符串  | 
-  | 
|
GracefulExit  | 
管理训练进程  | 
0或1。 
  | 
-  | 
|
FaultFlushing  | 
告知Elastic Agent当前是否有故障正在刷新。  | 
取值为true或false。 
  | 
Elastic Agent需要等待该字段为false且故障RankList无本节点故障时才会拉起训练进程。  | 
|
restartType  | 
-  | 
reset.json更新的类型  | 
podReschedule或hotReset  | 
单pod重调度情况下取值为podReschedule,热恢复场景下取值为hotReset。  | 
data-trace-<任务名称>
存储当前任务的各类打点类型的开关状态,由Ascend Device Plugin挂载到计算节点存储,训练容器挂载该文件后,由TaskD读取后对各类打点数据进行开关。
参数名称  | 
含义  | 
取值  | 
类型  | 
|---|---|---|---|
Communication  | 
标识通信算子  | 
on/off  | 
string  | 
Step  | 
标识Step时延  | 
on/off  | 
string  | 
SaveCheckpoint  | 
标识SaveCheckpoint耗时  | 
on/off  | 
string  | 
FP  | 
标识前向传播数据  | 
on/off  | 
string  | 
DataLoader  | 
标识DataLoader耗时  | 
on/off  | 
string  | 
 - 该ConfigMap需要和训练任务在同一命名空间,且命名为data-trace-<任务名称>,包括标签reset=true。
 - 该ConfigMap由Ascend Device Plugin挂载到训练节点的/user/cluster-info/datatrace-config/命名空间.data-trace-任务名称/*的文件夹下,文件名为profilingSwitch。
 - 如用户未创建该ConfigMap,在首次调用gRPC接口ModifyTrainingDataTraceSwitch时,ClusterD将尝试自动创建该ConfigMap。
 - 用户如需使用该功能,应将节点上的profilingSwitch文件,使用hostPath方式挂载进入容器内的/user/cluster-info/datatrace-config/目录。
 - 当前Step、SaveCheckpoint、FP、DataLoader为默认开启,且四类只能同步开启关闭,当五类数据全为off时关闭所有打点,否则默认开启上述四类,同时根据通信算子开关状态对其进行开启或关闭。
 
父主题: Ascend Device Plugin