开发者
资源

总述

本章节只适用于基于K8s的集群服务部署,不包含其他场景,其部署示意图如图1所示。

图1 K8s集群整体部署视图

按照Server推理服务实例在集群计算节点(即推理服务器)上的分布和推理模式,可以分为以下两种部署形态。

表1 部署形态

部署形态

含义

单机服务(非分布式)

单个Server可以独立作为推理服务实例对外提供推理服务,根据集群计算节点资源情况,整个集群可以支持一个或多个计算节点,单个计算节点可部署一个或多个Server,单机部署详情请参见单机(非分布式)服务部署

单容器PD分离

Controller/Coordinator/Prefill/Decode放置在一个容器中,以PD分离的形态运行,对外暴露的RESTful接口与PD混部一样。

PD分离服务

多个Server在一个或多个计算节点上联合部署,分为P实例(Prefill计算实例)和D实例(Decode计算实例),P实例与D实例分离部署,协同推理,整体作为一个Group对外提供推理服务,PD分离部署详情请参见PD分离服务部署

大EP PD分离服务

MOE模型大EP并行的PD分离部署,与多容器PD分离服务不同的是:D实例的每个DP组均会有独立的MindIE LLM RESTful接口对Coordinator暴露。

一体机单实例(单机蒸馏版或双机满血版)场景下,硬件故障会导致业务中断,业务恢复时长不可控,因此,一体机建议部署多实例,在单点硬件故障场景下可通过多实例之间的负载均衡继续提供业务。