TaskD
组件应用场景
大模型训练及推理任务在业务执行中会出现故障、性能劣化等问题,导致任务出收到影响。MindCluster集群调度的TaskD组件提供昇腾设备上训练及推理任务的状态监测和状态控制能力。
组件功能
- 针对MindSpore框架提供适配昇腾设备的进程管理功能,在出现软硬件故障时,完成训练进程的停止与重启。
- MindSpore场景下,负责对接K8s的集群控制中心,根据集群控制中心完成训练管理,管理训练任务的状态。
- 提供训练数据的轻量级profiling能力,根据集群控制中心控制完成profiling数据采集。
组件上下游依赖

- MindCluster集群调度组件通过K8s将设备和训练状态等信息写入ConfigMap中,并映射到容器内,ConfigMap名称为reset-config-任务名称。
- MindCluster集群调度组件通过K8s将训练状态检测指令写入ConfigMap中,并映射到容器内。
- TaskD Agent通过ConfigMap获取当前训练容器所使用的设备状况和训练任务状态等信息。
- TaskD Agent对接K8s集群控制中心,根据集群控制中心完成训练管理。
- TaskD Worker通过ConfigMap获取当前任务的训练检测功能开启指令。
父主题: 组件介绍