TaskD
组件应用场景
大模型训练及推理任务在业务执行中会出现故障、性能劣化等问题,导致任务受影响。MindCluster集群调度的TaskD组件提供昇腾设备上训练及推理任务的状态监测和状态控制能力。
当前版本TaskD存在两套业务流,业务流一为MindSpore场景下故障快速恢复业务;业务流二为训练业务运维管理业务(当前版本两套业务流存在安装部署使用和上下游依赖为两套机制的情况,后续版本将在安装部署使用和上下游依赖归一为一套机制)。
组件架构
图1 软件架构图


其中:
- TaskD Manager:任务管理中心控制模块,通过管理其他TaskD模块完成业务状态控制
- TaskD Proxy:消息转发模块,作为每个容器内的消息代理将消息发送到TaskD Manager中
- TaskD Agent:进程管理模块,作为业务进程的管理进程完成业务进程生命周期管理
- TaskD Worker:业务管理模块,作为业务进程的线程完成业务进程状态管理
组件功能
- 业务流一场景下各组件的功能说明如下。
- 针对MindSpore框架提供适配昇腾设备的进程管理功能,在出现软硬件故障时,完成训练进程的停止与重启。
- MindSpore场景下,负责对接K8s的集群控制中心,根据集群控制中心完成训练管理,管理训练任务的状态。
- 提供训练数据的轻量级profiling能力,根据集群控制中心控制完成profiling数据采集。
- 业务流二场景下各组件的功能说明如下。
提供训练数据的轻量级profiling能力,根据集群控制中心控制完成profiling数据采集。
组件上下游依赖
- 业务流一场景下组件的上下游依赖说明如下。
- MindCluster集群调度组件通过K8s将设备和训练状态等信息写入ConfigMap中,并映射到容器内,ConfigMap名称为reset-config-<任务名称>。
- MindCluster集群调度组件通过K8s将训练状态检测指令写入ConfigMap中,并映射到容器内。
- TaskD Agent通过ConfigMap获取当前训练容器所使用的设备状况和训练任务状态等信息。
- TaskD Agent对接K8s集群控制中心,根据集群控制中心完成训练管理。
- TaskD Worker通过ConfigMap获取当前任务的训练检测功能开启指令。图2 组件上下游依赖_业务流1
- 业务流二场景下组件的上下游依赖说明如下。
- TaskD Worker通过ConfigMap获取当前任务的训练检测功能开启指令。
- TaskD Manager通过gRPC获取当前任务的训练检测功能开启指令。图3 组件上下游依赖_业务流二
父主题: 组件介绍