使用前必读
MindCluster集群调度组件支持用户通过AIBrix服务框架定义的StormService工作负载部署vLLM推理任务进行调度和故障实例重调度。当前适配的AIBrix版本为v0.5.0;适配的vLLM-Ascend版本为main分支commit ID为41fbc5e及之后的版本。
本章节说明相关特性原理及对应配置示例。用户可以参考配置示例部署基于AIBrix的vLLM推理任务。
前提条件
在部署vLLM推理任务前,需要确保相关组件已经安装,若没有安装,可以参考安装部署章节进行操作。
- Volcano
- Ascend Device Plugin
- Ascend Docker Runtime
- ClusterD
- NodeD(可选)
支持的产品形态
- Atlas 800I A2 推理服务器
- Atlas 800I A3 超节点服务器
使用方式
MindCluster集群调度组件支持用户通过以下方式进行vLLM推理服务的容器化部署、故障重调度。本章节仅介绍通过命令行使用和通过脚本一键式部署使用方式。
- 通过命令行使用:通过配置的YAML文件部署任务。
- 通过脚本一键式部署使用:通过自动化脚本参考设计部署任务。
- 集成后使用:将集群调度组件集成到已有的第三方AI平台或者基于集群调度组件开发的AI平台。
父主题: vLLM推理任务最佳实践