CANN

产品

解决方案

开发者与合作伙伴

支持与服务

更多

SGLang全面支持昇腾，使能大EP高性能推理

开发者原生开发

发表于 2025/08/13

前言

2025年8月，经过SGLang社区与昇腾的共同努力，将SGLang的灵活编程框架与昇腾强大的异构算力深度融合，使能SGLang在昇腾上无缝运行大模型推理，并正式面向用户推出基于SGLang的大EP集群推理解决方案。当前用户可获取最新release版本的SGLang以体验低延迟、高吞吐的推理系统。

多种类大模型支持，满足多样化需求

通过增强SGLang能力并集成昇腾异构加速推理能力，当前已可开箱支持多种稠密Dense、稀疏MoE大语言模型及多模态模型，如Qwen系列、LLaMA系列、DeepSeek系列等。用户可以在昇腾运行各类大模型推理，并基于SGLang增量开发，满足不同场景的应用需求。

SGLang核心加速特性支持

经过SGLang社区与昇腾的协同，当前昇腾已支持部分核心加速特性，如PD Disaggregation、Overlap Scheduler、Tensor Parallel、DP Attention、大EP推理，即将支持加速特性如EPLB、Speculative Decoding及NPUGraph。社区最新加速能力平滑迁移至昇腾，面向用户提供高性能推理最优实践。

生态亲和加速的大EP推理框架

昇腾基于SGLang推理框架正式推出生态亲和的大EP推理加速库，通过北向接口兼容DeepEP，目标无需更改调用方式即可使能昇腾大EP方案，全面利用昇腾的技术优势，增强专家并行Expert Parallel的吞吐能力。

共建昇腾生态库，加速开源开放

昇腾与SGLang社区共同创立sgl-project/sgl-kernel-npu项目，面向SGLang社区提供生态亲和、面向全场景的标准接口融合算子与加速库。

欢迎访问SGLang kernel library for NPU，链接：GitHub - sgl-project/sgl-kernel-npu: SGLang kernel library for NPU

快速体验

容器准备：

https://docs.sglang.ai/platforms/ascend_npu.html#method-2-using-docker

快速体验DeepSeek：

https://docs.sglang.ai/platforms/ascend_npu.html#running-deepseek-v3

致谢

SGLang支持昇腾大EP推理解决方案是昇腾生态发展的一个重要里程碑，这一成果的实现离不开社区的深度协作与卓越贡献。

我们在这里向以下基于支持与反馈的团队成员致以谢意：

SGLang核心团队：Lianmin Zheng (https://github.com/merrymercy)、Yineng Zhang (https://github.com/zhyncs)、Jiexin Liang (https://github.com/Alcanderian)、Shangming Cai (https://github.com/ShangmingCai) 感谢核心团队成员认真审核PR，给予优质的反馈意见并协助贡献高质量的代码
KTransformers团队：Mingxing Zhang，感谢分享基于昇腾平台的优化经验

上一篇

中国移动 × 昇思 | 三大创新实现大模型训练 “性能与效率” 双重跃升

下一篇

花边之乡的“AI质检员”：机器之眼织就质量护城河