Ascend Operator
- 使用整卡调度(训练)、静态vNPU调度(训练)、、断点续训或弹性训练的用户,必须安装MindCluster Ascend Operator或MindCluster HCCL Controller其中一种组件。如果使用MindCluster Volcano组件作为调度器,需要先安装MindCluster Volcano组件,否则MindCluster Ascend Operator会启动失败。
- 仅使用整卡调度(推理)、静态vNPU调度(推理)、容器化支持、资源监测、推理卡故障恢复或推理卡故障重调度的用户,可以不安装MindCluster Ascend Operator,请直接跳过本章节。
操作步骤
- 以root用户登录K8s管理节点,并执行以下命令,查看MindCluster Ascend Operator镜像和版本号是否正确。
- 将MindCluster Ascend Operator软件包解压目录下的yaml文件,拷贝到K8s管理节点上任意目录。
- 如不修改组件启动参数,可跳过本步骤。否则,请根据实际情况修改yaml文件中MindCluster Ascend Operator的启动参数。启动参数请参见表1,可执行./ascend-operator -h查看参数说明。
- 在管理节点的yaml所在路径,执行以下命令,启动MindCluster Ascend Operator。
kubectl apply -f ascend-operator-v{version}.yaml启动示例如下:
deployment.apps/ascend-operator-manager created serviceaccount/ascend-operator-manager created clusterrole.rbac.authorization.k8s.io/ascend-operator-manager-role created clusterrolebinding.rbac.authorization.k8s.io/ascend-operator-manager-rolebinding created customresourcedefinition.apiextensions.k8s.io/ascendjobs.mindxdl.gitee.com created ...
- 执行以下命令,查看组件是否启动成功。
kubectl get pod -n mindx-dl
回显示例如下,出现Running表示组件启动成功。
NAME READY STATUS RESTARTS AGE ... ascend-operator-7667495b6b-hwmjw 1/1 Running 0 11s
参数说明
父主题: 手动安装
