SGLang全面支持昇腾,使能大EP高性能推理
发表于 2025/08/13
1、前言
2025年8月,经过SGLang社区与昇腾的共同努力,将SGLang的灵活编程框架与昇腾强大的异构算力深度融合,使能SGLang在昇腾平台上无缝运行大模型推理,并正式面向用户推出基于SGLang的大EP集群推理解决方案。当前用户可获取最新release版本的SGLang以体验低延迟、高吞吐的推理系统。
2、多种类大模型支持,满足多样化需求
通过增强SGLang原生能力并集成昇腾异构加速推理能力,当前已可开箱支持多种稠密Dense、稀疏MoE大语言模型及多模态模型,如Qwen系列、LLaMA系列、DeepSeek系列等。用户可以在昇腾平台运行各类大模型推理,并基于SGLang增量开发,满足不同场景的应用需求。
3、SGLang核心加速特性支持
经过SGLang社区与昇腾的协同,当前昇腾平台已支持部分核心加速特性如PD分离PD Disaggregation、调度掩盖Overlap Scheduler、TP并行Tensor Parallel、注意力层DP并行DP Attention、大EP推理DeepEP MoE,即将支持加速特性如专家负载均衡EPLB、投机推理Speculative Decoding及图模式NPUGraph。社区最新加速能力平滑迁移至昇腾平台,面向用户提供高性能推理最优实践。
4、生态亲和加速的大EP推理框架
昇腾基于SGLang推理框架正式推出生态亲和的大EP推理加速库,通过北向接口兼容DeepEP,目标无需更改调用方式即可使能昇腾大EP方案,全面利用昇腾平台优势,增强专家并行Expert Parallel的吞吐能力。
5、共建昇腾生态库,加速开源开放
SGLang社区与昇腾达成一致目标,共同建立[sgl-project/sgl-kernel-npu](https://github.com/sgl-project/sgl-kernel-npu)项目,面向SGLang社区提供生态亲和、面向全场景的标准接口融合算子与加速库。
6、快速体验
容器准备:
https://docs.sglang.ai/platforms/ascend_npu.html#method-2-using-docker
快速体验DeepSeek:
https://docs.sglang.ai/platforms/ascend_npu.html#running-deepseek-v3
7、致谢
SGLang原生支持昇腾大EP推理解决方案是昇腾生态发展的一个重要里程碑,这一成果的实现离不开社区的深度协作与卓越贡献。
我们在这里向以下基于支持与反馈的团队成员致以谢意:
- •SGLang核心团队:Lianmin Zheng (https://github.com/merrymercy)、Yineng Zhang (https://github.com/zhyncs)、Jiexin Liang (https://github.com/Alcanderian)、Shangming Cai (https://github.com/ShangmingCai) 感谢核心团队成员认真审核PR,给予优质的反馈意见并协助贡献高质量的代码
- •KTransformers团队:Mingxing Zhang,感谢分享基于昇腾平台的优化经验