总述

本章节只适用于基于K8s的集群服务部署，不包含其他场景，其部署示意图如图1所示。

图1 K8s集群整体部署视图

按照Server推理服务实例在集群计算节点（即推理服务器）上的分布和推理模式，可以分为以下两种部署形态。

表1 部署形态
部署形态	含义
单机服务（非分布式）	单个Server可以独立作为推理服务实例对外提供推理服务，根据集群计算节点资源情况，整个集群可以支持一个或多个计算节点，单个计算节点可部署一个或多个Server，单机部署详情请参见单机（非分布式）服务部署。
单容器PD分离	Controller/Coordinator/Prefill/Decode放置在一个容器中，以PD分离的形态运行，对外暴露的RESTful接口与PD混部一样。
PD分离服务	多个Server在一个或多个计算节点上联合部署，分为P实例（Prefill计算实例）和D实例（Decode计算实例），P实例与D实例分离部署，协同推理，整体作为一个Group对外提供推理服务，PD分离部署详情请参见PD分离服务部署。
大EP PD分离服务	MOE模型大EP并行的PD分离部署，与多容器PD分离服务不同的是：D实例的每个DP组均会有独立的MindIE LLM RESTful接口对Coordinator暴露。

一体机单实例（单机蒸馏版或双机满血版）场景下，硬件故障会导致业务中断，业务恢复时长不可控，因此，一体机建议部署多实例，在单点硬件故障场景下可通过多实例之间的负载均衡继续提供业务。

父主题： 集群服务部署