任务信息
fault-config-<任务名称>
字段名称 |
含义 |
取值 |
备注 |
---|---|---|---|
fault-npus |
故障任务使用的故障芯片的rank信息 |
字符串 |
- |
reset-config-<任务名称>
字段名称 |
参数 |
含义 |
取值 |
备注 |
---|---|---|---|---|
reset.json |
RankList |
芯片列表 |
- |
- |
-RankId |
故障任务使用的rank信息 |
整数类型 |
- |
|
-LogicId |
芯片逻辑ID |
32位整数类型 |
- |
|
-Status |
芯片状态 |
字符串 |
- |
|
-Policy |
热复位策略 |
字符串 |
- |
|
-InitialPolicy |
初始热复位策略 |
字符串 |
- |
|
-ErrorCode |
10进制故障码 |
64位整型数组 |
- |
|
-ErrorCodeHex |
16进制故障码 |
字符串 |
- |
|
GracefulExit |
管理训练进程 |
0或1。
|
- |
|
UpdateTime |
ConfigMap的更新时间 |
- |
- |
|
RetryTime |
Pod重调度的次数 |
整数类型 |
- |
|
FaultFlushing |
告知Elastic Agent当前是否有故障正在刷新。 |
取值为true或false。
|
Elastic Agent需要等待该字段为false且故障RankList无本节点故障时才会拉起训练进程。 |
|
RestartFaultProcess |
告知Elastic Agent当前是否仅重启本节点故障进程。 |
取值true或false。
|
- |
|
restartType |
- |
reset.json更新的类型 |
podReschedule或hotReset |
单pod重调度情况下取值为podReschedule,热恢复场景下取值为hotReset。 |
data-trace-<任务名称>
存储当前任务的各类打点类型的开关状态,由Ascend Device Plugin挂载到计算节点存储,训练容器挂载该文件后,由TaskD读取后对各类打点数据进行开关。
参数名称 |
含义 |
取值 |
类型 |
---|---|---|---|
Communication |
标识通信算子 |
on/off |
string |
Step |
标识Step时延 |
on/off |
string |
SaveCheckpoint |
标识SaveCheckpoint耗时 |
on/off |
string |
FP |
标识前向传播数据 |
on/off |
string |
DataLoader |
标识DataLoader耗时 |
on/off |
string |

- 该ConfigMap需要和训练任务在同一命名空间,且命名为data-trace-<任务名称>,包括标签reset=true。
- 该ConfigMap由Ascend Device Plugin挂载到训练节点的/user/cluster-info/datatrace-config/命名空间.data-trace-任务名称/*的文件夹下,文件名为profilingSwitch。
- 如用户未创建该ConfigMap,在首次调用gRPC接口ModifyTrainingDataTraceSwitch时,ClusterD将尝试自动创建该ConfigMap。
- 用户如需使用该功能,应将节点上的profilingSwitch文件,使用hostPath方式挂载进入容器内的/user/cluster-info/datatrace-config/目录。
- 当前Step、SaveCheckpoint、FP、DataLoader为默认开启,且四类只能同步开启关闭,当五类数据全为off时关闭所有打点,否则默认开启上述四类,同时根据通信算子开关状态对其进行开启或关闭。
steptime-dtpgroup
存储任务的迭代时延和分组信息的保存路径和启停开关,启动任务时用户可通过CCAE管理平台配置ConfigMap参数进行任务是否劣化的判定。
字段名称 |
含义 |
取值 |
备注 |
---|---|---|---|
PerfDumpPath |
迭代时延和分组信息保存路径。 |
字符串 |
- |
PerfDumpConfig |
迭代时延和分组信息启停开关。 |
字符串 |
- |