基于昇腾AI部署Kimi K2.5，多模态推理性能全面跃升

产业

发表于 2026/02/14

昇腾始终致力以极致的算力与开放的生态，加速 AI 产业的繁荣，全面支持业界主流模型。在Kimi K2.5开源发布之际，昇腾同步深度优化，在昇腾Atlas 800 A2、Atlas 800 A3上实现高效推理部署，释放极致性能。

Kimi K2.5基于创新的模型结构以及万亿超大参数加持下，成为当前开源社区参数规模最大、上下文窗口最长、多模态融合最深的基座模型之一。

Kimi K2.5 的核心架构实现了视觉与语言处理范式的深度融合。其技术底座搭载经多模态场景深度优化的 MoonViT 视觉编码器，与采用渐进式推理架构的 Dense/MoE 混合 Transformer 形成协同双塔。模型创新性地引入视觉特征压缩对齐机制，显著增强跨模态语义一致性；并通过层级化专家分工策略，实现计算资源的任务级动态调配与高效路由。

昇腾全方位调优，实现Kimi K2.5推理效率大幅提升

Kimi K2.5强大的同时，推理挑战巨大：

（1）万亿级参数总量：单份权重存储需求高达 595 GB，考验分布式加载与持久化存储；

（2）极高稀疏度的MoE架构：每层 384 路专家，动态激活 8 路由专家，专家并行，AllToAll通信带宽要求更高；

（3）256K 超长上下文窗口：KV Cache 显存占用爆炸式增长，访存带宽直接影响生成延迟。

昇腾基于Atlas 800 A2、Atlas 800 A3硬件平台、结合vLLM推理引擎，开展了算子优化、通信优化、低精量化与 P/D 分离部署的协同设计，大幅度降低Kimi-K2.5的部署难度，提升推理性能。

一、高性能融合算子

1.开发MoE大融合算子，性能提升50%：dispatch_ffn_combine 端到端融合算子，将 MoE 核心计算链路中的分布式分发（DistributeDispatch）、GMM、SwiGLU 激活、结果合并（DistributeCombine），统一合并为单Kernel，节省内核开销和读写时延，并通过All2All 通信与 GMM 通算掩盖。

2.InterleaveRope位置编码时延降低50%：YaRN RoPE 端到端融合算子，将6个离散算子整合为单 Kernel，通过插值掩码片上化与 MLA 原生格式输出。该优化使Kernel Launch次数降低 6 倍，访存量减少 75%，位置编码计算时延压缩 50%。

二、W4A8 混合量化，模型权重压缩16%

Kimi K2.5 模型权重达595 GiB，通过引入 W4A8（权重 INT4、激活 INT8）细粒度混合精度量化，可有效压缩存储开销，提升模型吞吐性能。

昇腾MsModelSlim 自动感知、无损量化技术

MsModelSlim 采用多模态敏感度感知量化技术，依托跨模态模型量化实验积累，构建精度敏感度预测模型，实现层次化差异化的量化策略。

通过自动定位视觉编码器（ViT）高频细节保留层、语言模型注意力投影层等精度敏感层，同时精准识别 MoE 路由层、FFN 中间层等性能收益层，在显著降低模型存储与计算开销的同时，有效保持多模态大模型的原始精度表现。

针对 Kimi K2.5 模型制定差异化量化策略

视觉编码器（ViT）：作为跨模态对齐中的精度敏感模块，对其全部线性层采用 INT8 动态量化。量化开关依据输入数据分布自适应决定，在保证压缩比的同时最大限度维持视觉特征表达与跨模态融合精度。
大语言模型主干（LLM）：实施静态混合精度量化，依据模块敏感度差异分配比特——混合专家（MoE）层采用 INT4 权重量化以获取极致显存压缩，自注意力（Attention）投影层保留 INT8 精度以确保生成质量。整网量化策略按层静态标定，无需运行时决策。

在代表性评测集（TextVQA、GSM8K）上验证，量化方案引入的精度退化控制在 1% 以内；模型权重存储开销由 BF16 下的 595 GiB 压缩至 W4A8 混合精度下的 500 GiB，存储开销下降降低 16%。

三、P/D分离部署，TPS大幅提升

针对在线服务TPOT ≤ 50 ms 的时延约束，昇腾实现了Kimi-K2.5的 P/D 分离部署适配与深度优化。PD分离可以打破 Prefill 与 Decode 耦合部署带来的资源竞争与队首阻塞，为两阶段配置独立硬件资源池，最大化吞吐性能。

以Atlas 800 A3为例，资源解耦与并行策略优化：

Prefill 阶段（计算密集型）：采用 DP2 × TP8 并行配置，结合大 Batch Size 连续批处理聚合，充分压满 Cube Core 矩阵算力；
Decode 阶段（访存密集型）：采用 DP4 × TP4 轻量张量并行与细粒度 Micro‑Batching，降低单卡 KV Cache 驻留压力；同时引入 EP 专家并行优化 All‑to‑All 通信拓扑，显著削减生成时延。

实现了超大规模 MoE 模型在昇腾硬件上的低延迟、高吞吐与高资源利用率部署。

权重下载

权重文件已经可以在魔塔社区下载：

https://modelscope.cn/models/Eco-Tech/Kimi-K2.5-W4A8/

推理部署

我们在昇腾vLLM开源子项目vLLM Ascend的特性分支内准备了详细的部署指导，您可以直接操作部署

https://github.com/LoganJane/vllm-ascend/blob/main/README.md

2026CANN训练营火热报名中！开源实践全新解读，通过认证考核并参与社区任务赢万元大奖！

CATLASS 1.4.0 发布，进一步丰富示例模板 |已部署应用于多家厂商商用生产环境

基于昇腾AI部署Kimi K2.5，多模态推理性能全面跃升

昇腾全方位调优，实现Kimi K2.5推理效率大幅提升

一、高性能融合算子

二、W4A8 混合量化，模型权重压缩16%

三、P/D分离部署，TPS大幅提升

权重下载

推理部署

关于昇腾

新闻与活动

交流与资讯

支持与服务

开源社区

Links