返回顶部 流程说明 基于AIBrix的vLLM推理任务包含Routing Pod和推理实例Pod。推理实例Pod分为Prefill实例Pod和Decode实例Pod,其中Routing Pod不需要使用NPU资源。AIBrix根据不同的推理服务配置方式生成不同的工作负载,用于创建不同的推理实例,并由Router统一对外提供推理服务。 关于AIBrix任务部署的详细说明可参见AIBrix文档。 使用流程通过命令行使用MindCluster集群调度组件部署基于AIBrix的vLLM推理任务时,使用流程如图1所示。 图1 使用流程 父主题: 通过命令行使用