昇腾社区首页
中文
注册

TaskD

组件应用场景

大模型训练及推理任务在业务执行中会出现故障、性能劣化等问题,导致任务出收到影响。MindCluster集群调度的TaskD组件提供昇腾设备上训练及推理任务的状态监测和状态控制能力。

组件功能

  • 针对MindSpore框架提供适配昇腾设备的进程管理功能,在出现软硬件故障时,完成训练进程的停止与重启。
  • MindSpore场景下,负责对接K8s的集群控制中心,根据集群控制中心完成训练管理,管理训练任务的状态。
  • 提供训练数据的轻量级profiling能力,根据集群控制中心控制完成profiling数据采集。

组件上下游依赖

  • MindCluster集群调度组件通过K8s将设备和训练状态等信息写入ConfigMap中,并映射到容器内,ConfigMap名称为reset-config-任务名称。
  • MindCluster集群调度组件通过K8s将训练状态检测指令写入ConfigMap中,并映射到容器内。
  • TaskD Agent通过ConfigMap获取当前训练容器所使用的设备状况和训练任务状态等信息。
  • TaskD Agent对接K8s集群控制中心,根据集群控制中心完成训练管理。
  • TaskD Worker通过ConfigMap获取当前任务的训练检测功能开启指令。