Elastic Agent
组件应用场景
因大模型训练任务过程中容易出现各种软硬件故障,导致训练任务受到影响,MindCluster集群调度组件提供了部署在计算节点的Elastic Agent的二进制包,用于提供昇腾设备上训练任务的管理功能。
组件功能
- 针对PyTorch框架提供适配昇腾设备的进程管理功能,在出现软硬件故障时,完成训练进程的停止或重启。
- 负责对接K8s集群中的集群控制中心,根据集群控制中心完成训练管理。
组件上下游依赖
图1 组件上下游依赖


- MindCluster集群调度组件通过K8s将设备和训练任务状态等信息写入ConfigMap中,并映射到容器内,ConfigMap名称为reset-config-任务名称。
- Elastic Agent通过ConfigMap获取当前训练容器所使用的设备状况和训练任务状态等信息。
- Elastic Agent对接K8s集群控制中心,根据集群控制中心完成训练管理。
父主题: 组件介绍