任务信息

表1 fault-config-任务名称
字段名称	含义	取值	备注
fault-npus	故障任务使用的故障芯片的rank信息	字符串	-

表2 env-config-任务名称
字段名称	含义	取值	备注
master-addr	训练任务的master、scheduler的pod ip	字符串	-

表3 reset-config-*<job-name>*
字段名称	参数	含义	取值	备注
reset.json	RankList	芯片列表	-	-
	RankId	故障任务使用的rank信息	整数类型	-
	LogicId	芯片逻辑ID	32位整数类型	-
	Status	芯片状态	字符串	-
	Policy	热复位策略	字符串	-
	InitialPolicy	初始热复位策略	字符串	-
	ErrorCode	十进制故障码	64位整型数组	-
	ErrorCodeHex	十六进制故障码	字符串	-
	GracefulExit	管理训练进程	0或1。取值为1，杀死所有训练进程。取值为0，不做处理。	-
	FaultFlushing	告知Elastic Agent当前是否有故障正在刷新。	取值为true或false。 true：表示有故障正在刷新。 false：表示当前无故障刷新。	Elastic Agent需要等待该字段为false且故障RankList无本节点故障时才会拉起训练进程。
restartType	-	reset.json更新的类型	podReschedule或hotReset	单pod重调度情况下取值为podReschedule，热恢复场景下取值为hotReset。

存储当前任务的各类打点类型的开关状态，由Ascend Device Plugin挂载到计算节点存储，训练容器挂载该文件后，由TaskD读取后对各类打点数据进行开关。

该ConfigMap需要和训练任务在同一命名空间，且命名为data-trace-<任务名称>，包括标签reset=true。
该ConfigMap由Ascend Device Plugin挂载到训练节点的/user/cluster-info/datatrace-config/命名空间.data-trace-任务名称/*的文件夹下，文件名为profilingSwitch。
如用户未创建该ConfigMap，在首次调用gRPC接口ModifyTrainingDataTraceSwitch时，ClusterD将尝试自动创建该ConfigMap。
用户如需使用该功能，应将节点上的profilingSwitch文件，使用hostPath方式挂载进入容器内的/user/cluster-info/datatrace-config/目录。
当前Step、SaveCheckpoint、FP、DataLoader为默认开启，且四类只能同步开启关闭，当五类数据全为off时关闭所有打点，否则默认开启上述四类，同时根据通信算子开关状态对其进行开启或关闭。

父主题： Ascend Device Plugin