使用前必读
MindCluster集群调度组件支持用户通过生成acjob推理任务的方式进行MindIE Motor的容器化部署、故障重调度和弹性扩缩容。
本章节仅说明相关特性原理及对应配置示例,所提供的YAML示例不足以完成MindIE任务的部署。了解MindIE Motor的详细部署流程请参见《MindIE Motor开发指南》。
前提条件
- 在部署MindIE Service前,需要确保相关组件已经安装,若没有安装,可以参考安装部署章节进行操作。
- Volcano
- Ascend Device Plugin
- Ascend Docker Runtime
- Ascend Operator,且需将启动参数enableGangScheduling的取值设置为true
- ClusterD
- NodeD
支持的产品形态
- Atlas 800I A2 推理服务器
- Atlas 800I A3 超节点
使用方式
MindCluster集群调度组件支持用户通过以下2种方式进行MindIE Service的容器化部署、故障重调度和弹性扩缩容。本章节仅介绍通过命令行使用这种方式。
- 通过命令行使用:通过配置的YAML文件部署任务。
- 集成后使用:将集群调度组件集成到已有的第三方AI平台或者基于集群调度组件开发的AI平台。
父主题: MindIE Motor推理任务最佳实践