昇腾社区首页
中文
注册
昇腾CANN LLM-DataDist开发指南全新发布,快来社区体验吧

昇腾CANN LLM-DataDist开发指南全新发布,快来社区体验吧

昇腾CANN

发表于 2025/06/05

1 引言

在大模型推理场景下,随着模型batch size的增大,Prefill阶段的性能会线性降低,Decode阶段会额外占用更多的内存。两阶段对资源的需求不同,部署在一起导致资源分配不均,成本居高不下。通过LLM-DataDist构建的大模型推理分离式框架有效地解决了该问题。在该分离式框架中,将Prefill和Decode分别部署在不同规格和架构的集群中,不仅提升了性能和资源利用效率,还显著提高了大模型推理系统的吞吐量。

LLM-DataDist作为大模型分布式集群和数据管理组件,提供了高性能、零拷贝的点对点数据传输的能力,该能力通过简易的API开放给用户。LLM-DataDist利用昇腾集群多样化通信链路(RoCE/HCCS),可实现跨实例和集群的高效KV Cache传输,支持与主流LLM推理框架vLLM等的集成,并可用于构筑分布式数据管理系统。

为了让开发者更好地了解LLM-DataDist,昇腾社区文档中心全新上线《LLM DataDist开发 (Python)》和《LLM DataDist开发 (C++)》,快来看看吧!

下面以《LLM DataDist开发 (Python)》为例,带您体验手册全貌。

2 通过学习向导,快速了解手册内容

如果您对LLM-DataDist不太了解,请通过学习向导快速get手册全貌,按需访问对应章节。

3 介绍概念和应用场景,提供背景知识

LLM-DataDist的相关概念和应用场景,是学习如何使用LLM-DataDist的必备知识。

4 详尽开发流程、完整代码样例,全面体验LLM-DataDist功能

LLM-DataDist开发的基本流程为“LLM-DataDist初始化 > 建链操作 > 申请KV Cache > 推理脚本进行分离部署 > 拉取缓存的KV Cache > 执行推理脚本 > 释放资源”,LLM-DataDist提供了接口供上层框架调用,实现上述流程。

Python接口样例主要介绍如何将一个Pytorch的大模型脚本迁移为可以全量和增量分离部署的脚本。

5 提供基本功能介绍和功能示例,助力开发者玩转LLM-DataDist接口

LLM-DataDist功能主要包括:链路管理和KV Cache管理。这些功能通过简易的API开放给用户,可以实现高性能、零拷贝的点对点数据传输的能力。

6 更多功能

更多功能,比如公共前缀,KV Cache换入换出,请参考专题章节和接口参考章节。

本页内容