昇腾社区首页
中文
注册
开发者
下载

流程说明

基于AIBrix的vLLM推理任务包含Routing Pod和推理实例Pod。推理实例Pod分为Prefill实例Pod和Decode实例Pod,其中Routing Pod不需要使用NPU资源。AIBrix根据不同的推理服务配置方式生成不同的工作负载,用于创建不同的推理实例,并由Router统一对外提供推理服务。

关于AIBrix任务部署的详细说明可参见AIBrix文档

使用流程

通过命令行使用MindCluster集群调度组件部署基于AIBrix的vLLM推理任务时,使用流程如图1所示。

图1 使用流程