功能介绍

offline-deploy工具提供MindX DL组件和MEF Center及所需依赖的批量离线安装功能。具体适用场景及安装组件说明如下(可选组件默认不安装):

序号

场景

安装组件

说明

1

MindX DL全栈安装(集群调度场景)

Docker

Kubernetes

Ascend Docker Runtime

Ascend Device Plugin

Volcano

NodeD

HCCL-Controller

NPU-Exporter

适用于有一台或者多台NPU服务器,需要使用Kubernetes管理的场景。使用该场景会完成NPU服务器的Docker、Kubernetes和NPU集群调度组件的安装。

2

K8s集群扩容(集群调度场景)

Ascend Docker Runtime

Ascend Device Plugin

Volcano

(可选)NodeD

(可选)HCCL-Controller

(可选)NPU-Exporter

适用于已经有一个部署好的Kubernetes集群,需要纳管新的NPU服务器的场景。使用该场景时,需要在已有的Kubernetes集群的master节点部署NPU管理组件,新接入的NPU机器上部署worker节点的NPU管理组件。

3

K8s集群扩容(设备纳管场景)

Ascend Docker Runtime

Ascend Device Plugin

(可选)NPU-Exporter

适用于已经有一个部署好的Kubernetes集群,希望使用第三方调度器部署NPU任务的场景。使用该场景时,需要在新接入的NPU服务器上部署worker节点的NPU管理组件。

4

MEF Center离线安装

Docker

Kubernetes

KubeEdge

MEF Center

适用于将MEF Center部署在支持的边缘设备或者服务器的场景。使用该场景时,可一键安装MEF Center软件和其所需的依赖。

除以上四种主要场景外,用户可通过单独执行分步脚本实现安装场景中需要的以下功能:

  • 配置hccn网络:在集群训练场景下配置device的网卡IP、网关和子网掩码
  • 安装ansible
  • 安装npu驱动
  • 查看worker节点主机上npu、hccn_tool等状态并生成报告文件
  • 升级MindX DL组件