字段名称 |
含义 |
取值 |
备注 |
---|---|---|---|
fault-npus |
故障任务使用的故障芯片的rank信息 |
字符串 |
- |
字段名称 |
含义 |
取值 |
备注 |
---|---|---|---|
master-addr |
训练任务的master、scheduler的pod ip |
字符串 |
- |
字段名称 |
参数 |
含义 |
取值 |
备注 |
---|---|---|---|---|
reset.json |
RankList |
芯片列表 |
- |
- |
RankId |
故障任务使用的rank信息 |
整数类型 |
- |
|
LogicId |
芯片逻辑ID |
32位整数类型 |
- |
|
Status |
芯片状态 |
字符串 |
- |
|
Policy |
热复位策略 |
字符串 |
- |
|
InitialPolicy |
初始热复位策略 |
字符串 |
- |
|
ErrorCode |
10进制故障码 |
64位整型数组 |
- |
|
ErrorCodeHex |
16进制故障码 |
字符串 |
- |
|
GracefulExit |
管理训练进程 |
0或1。
|
- |
|
FaultFlushing |
告知Elastic Agent当前是否有故障正在刷新。 |
取值为true或false。
|
Elastic Agent需要等待该字段为false且故障RankList无本节点故障时才会拉起训练进程。 |
|
restartType |
- |
reset.json更新的类型 |
podReschedule或hotReset |
单pod重调度情况下取值为podReschedule,热恢复场景下取值为hotReset。 |
存储当前任务的各类打点类型的开关状态,由Ascend Device Plugin挂载到计算节点存储,训练容器挂载该文件后,由TaskD读取后对各类打点数据进行开关。
参数名称 |
含义 |
取值 |
类型 |
---|---|---|---|
Communication |
标识通信算子 |
on/off |
string |
Step |
标识step时延 |
on/off |
string |
SaveCheckpoint |
标识saveCkpt耗时 |
on/off |
string |
FP |
标识前向传播数据 |
on/off |
string |
DataLoader |
标识dataloader耗时 |
on/off |
string |