下载
中文
注册

基于昇腾AI部署Kimi K2.5,多模态推理性能全面跃升

产业

发表于 2026/02/14

昇腾始终致力以极致的算力与开放的生态,加速 AI 产业的繁荣,全面支持业界主流模型。在Kimi K2.5开源发布之际,昇腾同步深度优化,在昇腾Atlas 800 A2、Atlas 800 A3上实现高效推理部署,释放极致性能。

Kimi K2.5基于创新的模型结构以及万亿超大参数加持下,成为当前开源社区参数规模最大、上下文窗口最长、多模态融合最深的基座模型之一。

Kimi K2.5 的核心架构实现了视觉与语言处理范式的深度融合。其技术底座搭载经多模态场景深度优化的 MoonViT 视觉编码器,与采用渐进式推理架构的 Dense/MoE 混合 Transformer 形成协同双塔。模型创新性地引入视觉特征压缩对齐机制,显著增强跨模态语义一致性;并通过层级化专家分工策略,实现计算资源的任务级动态调配与高效路由。


昇腾全方位调优,实现Kimi K2.5推理效率大幅提升

Kimi K2.5强大的同时,推理挑战巨大:

(1)万亿级参数总量:单份权重存储需求高达 595 GB,考验分布式加载与持久化存储;

(2)极高稀疏度的MoE架构:每层 384 路专家,动态激活 8 路由专家,专家并行,AllToAll通信带宽要求更高;

(3)256K 超长上下文窗口:KV Cache 显存占用爆炸式增长,访存带宽直接影响生成延迟。

昇腾基于Atlas 800 A2、Atlas 800 A3硬件平台、结合vLLM推理引擎,开展了算子优化、通信优化、低精量化与 P/D 分离部署的协同设计,大幅度降低Kimi-K2.5的部署难度,提升推理性能。

一、高性能融合算子

1.开发MoE大融合算子,性能提升50%:dispatch_ffn_combine 端到端融合算子,将 MoE 核心计算链路中的分布式分发(DistributeDispatch)、GMM、SwiGLU 激活、结果合并(DistributeCombine),统一合并为单Kernel,节省内核开销和读写时延,并通过All2All 通信与 GMM 通算掩盖。

2.InterleaveRope位置编码时延降低50%:YaRN RoPE 端到端融合算子,将6个离散算子整合为单 Kernel,通过插值掩码片上化与 MLA 原生格式输出。该优化使Kernel Launch次数降低 6 倍,访存量减少 75%,位置编码计算时延压缩 50%。

二、W4A8 混合量化,模型权重压缩16%

Kimi K2.5 模型权重达595 GiB,通过引入 W4A8(权重 INT4、激活 INT8)细粒度混合精度量化,可有效压缩存储开销,提升模型吞吐性能。

昇腾MsModelSlim 自动感知、无损量化技术

MsModelSlim 采用多模态敏感度感知量化技术,依托跨模态模型量化实验积累,构建精度敏感度预测模型,实现层次化差异化的量化策略。

通过自动定位视觉编码器(ViT)高频细节保留层、语言模型注意力投影层等精度敏感层,同时精准识别 MoE 路由层、FFN 中间层等性能收益层,在显著降低模型存储与计算开销的同时,有效保持多模态大模型的原始精度表现。

针对 Kimi K2.5 模型制定差异化量化策略

  • 视觉编码器(ViT):作为跨模态对齐中的精度敏感模块,对其全部线性层采用 INT8 动态量化。量化开关依据输入数据分布自适应决定,在保证压缩比的同时最大限度维持视觉特征表达与跨模态融合精度。
  • 大语言模型主干(LLM):实施静态混合精度量化,依据模块敏感度差异分配比特——混合专家(MoE)层采用 INT4 权重量化以获取极致显存压缩,自注意力(Attention)投影层保留 INT8 精度以确保生成质量。整网量化策略按层静态标定,无需运行时决策。

在代表性评测集(TextVQA、GSM8K)上验证,量化方案引入的精度退化控制在 1% 以内;模型权重存储开销由 BF16 下的 595 GiB 压缩至 W4A8 混合精度下的 500 GiB,存储开销下降降低 16%。

三、P/D分离部署,TPS大幅提升

针对在线服务TPOT ≤ 50 ms 的时延约束,昇腾实现了Kimi-K2.5的 P/D 分离部署适配与深度优化。PD分离可以打破 Prefill 与 Decode 耦合部署带来的资源竞争与队首阻塞,为两阶段配置独立硬件资源池,最大化吞吐性能。

以Atlas 800 A3为例,资源解耦与并行策略优化:

  • Prefill 阶段(计算密集型):采用 DP2 × TP8 并行配置,结合大 Batch Size 连续批处理聚合,充分压满 Cube Core 矩阵算力;
  • Decode 阶段(访存密集型):采用 DP4 × TP4 轻量张量并行与细粒度 Micro‑Batching,降低单卡 KV Cache 驻留压力;同时引入 EP 专家并行优化 All‑to‑All 通信拓扑,显著削减生成时延。

实现了超大规模 MoE 模型在昇腾硬件上的低延迟、高吞吐与高资源利用率部署。


权重下载

权重文件已经可以在魔塔社区下载:

https://modelscope.cn/models/Eco-Tech/Kimi-K2.5-W4A8/


推理部署

我们在昇腾vLLM开源子项目vLLM Ascend的特性分支内准备了详细的部署指导,您可以直接操作部署

https://github.com/LoganJane/vllm-ascend/blob/main/README.md

下一篇

CATLASS 1.4.0 发布,进一步丰富示例模板 |已部署应用于多家厂商商用生产环境