昇腾社区首页
中文
注册

安装前必读

使用约束

  • 请确保根目录有足够的磁盘空间,根目录的磁盘空间利用率高于85%会触发kubelet的资源驱逐机制,将导致服务不可用。磁盘空间要求说明请参见表1;驱逐策略请查看Kubernetes官方文档
  • Arm架构和x86_64架构使用的集群调度组件镜像不能相互兼容。
  • K8s默认的证书有效期为365天,到期前需要用户自行更新。

组件介绍

集群调度组件的功能介绍,请参见表1

表1 集群调度组件说明

组件

功能介绍

Ascend Docker Runtime

为训推任务提供容器化支持,自动挂载所需文件和设备依赖。

Ascend Device Plugin

基于Kubernetes设备插件机制,提供昇腾AI处理器的设备发现、分配和健康状态上报功能,使能Kubernetes管理昇腾AI处理器资源。

NPU Exporter

实时监测昇腾AI处理器的资源指标,获取如昇腾AI处理器的利用率、温度、电压等信息。

Volcano

基于开源Volcano调度插件机制,增加昇腾AI处理器的亲和性调度、故障重调度等特性,最大化发挥昇腾AI处理器计算性能。

ClusterD

提供集群级别的可用资源信息。收集集群任务信息、资源信息和故障信息及影响范围,从任务、芯片和故障维度统计分析。

Ascend Operator

提供训练任务生命周期管理,为不同AI框架的分布式训练任务提供相应的环境变量、生成分布式训练任务依赖的集合通信配置。

NodeD

提供节点状态上报功能,上报如节点健康状态、CPU和内存等故障信息。

Resilience Controller

提供弹性缩容训练服务。在训练任务使用的硬件发生故障时,剔除该硬件并继续训练。

Elastic Agent

对接K8s集群控制中心,根据集群控制中心完成训练管理。了解Elastic Agent的安装步骤请参见制作镜像

TaskD

MindCluster集群调度的TaskD组件提供昇腾设备上训练及推理任务的状态监测和状态控制能力。了解TaskD的安装步骤请参见制作镜像

MindIO ACP

在大模型训练中,使用训练服务器内存作为缓存,对CheckPoint的保存及加载进行加速。了解MindIO ACP的详细介绍及安装步骤请参见《MindCluster CheckPoint保存与加载优化》

MindIO TFT

MindIO TFT包括TTP、UCE和ARF等功能。

了解MindIO TFT的详细介绍及安装步骤请参见《MindCluster 故障恢复加速》

组件部署说明

安装部署集群调度组件时,可以参考图1,将相应的集群调度组件或其他第三方软件安装到相应的节点上。大部分组件都使用容器化方式部署;Ascend Docker Runtime使用二进制方式部署;只有NPU Exporter组件既可以使用容器化方式部署,又可以使用二进制方式部署。

图1 组件安装部署

MindCluster提供Volcano组件,该组件在开源Volcano上集成了昇腾插件(Ascend-volcano-plugin)。

日志路径说明

  • Ascend Docker Runtime日志路径为“/var/log/ascend-docker-runtime/”
  • 其他集群调度组件日志路径可参考创建日志目录章节信息。