昇腾社区首页
中文
注册

Elastic Agent

组件应用场景

因大模型训练任务过程中容易出现各种软硬件故障,导致训练任务受到影响,MindCluster集群调度组件提供了部署在计算节点的Elastic Agent的二进制包,用于提供昇腾设备上训练任务的管理功能。

组件功能

  • 针对PyTorch框架提供适配昇腾设备的进程管理功能,在出现软硬件故障时,完成训练进程的停止或重启。
  • 负责对接K8s集群中的集群控制中心,根据集群控制中心完成训练管理。

组件上下游依赖

图1 组件上下游依赖
  • MindCluster集群调度组件通过K8s将设备和训练任务状态等信息写入ConfigMap中,并映射到容器内,ConfigMap名称为reset-config-任务名称
  • Elastic Agent通过ConfigMap获取当前训练容器所使用的设备状况和训练任务状态等信息。
  • Elastic Agent对接K8s集群控制中心,根据集群控制中心完成训练管理。