基于昇腾AI部署Kimi K2.5,多模态推理性能全面跃升
产业
发表于 2026/02/14
产业
发表于 2026/02/14
昇腾始终致力以极致的算力与开放的生态,加速 AI 产业的繁荣,全面支持业界主流模型。在Kimi K2.5开源发布之际,昇腾同步深度优化,在昇腾Atlas 800 A2、Atlas 800 A3上实现高效推理部署,释放极致性能。
Kimi K2.5基于创新的模型结构以及万亿超大参数加持下,成为当前开源社区参数规模最大、上下文窗口最长、多模态融合最深的基座模型之一。
Kimi K2.5 的核心架构实现了视觉与语言处理范式的深度融合。其技术底座搭载经多模态场景深度优化的 MoonViT 视觉编码器,与采用渐进式推理架构的 Dense/MoE 混合 Transformer 形成协同双塔。模型创新性地引入视觉特征压缩对齐机制,显著增强跨模态语义一致性;并通过层级化专家分工策略,实现计算资源的任务级动态调配与高效路由。
Kimi K2.5强大的同时,推理挑战巨大:
(1)万亿级参数总量:单份权重存储需求高达 595 GB,考验分布式加载与持久化存储;
(2)极高稀疏度的MoE架构:每层 384 路专家,动态激活 8 路由专家,专家并行,AllToAll通信带宽要求更高;
(3)256K 超长上下文窗口:KV Cache 显存占用爆炸式增长,访存带宽直接影响生成延迟。
昇腾基于Atlas 800 A2、Atlas 800 A3硬件平台、结合vLLM推理引擎,开展了算子优化、通信优化、低精量化与 P/D 分离部署的协同设计,大幅度降低Kimi-K2.5的部署难度,提升推理性能。
1.开发MoE大融合算子,性能提升50%:dispatch_ffn_combine 端到端融合算子,将 MoE 核心计算链路中的分布式分发(DistributeDispatch)、GMM、SwiGLU 激活、结果合并(DistributeCombine),统一合并为单Kernel,节省内核开销和读写时延,并通过All2All 通信与 GMM 通算掩盖。
2.InterleaveRope位置编码时延降低50%:YaRN RoPE 端到端融合算子,将6个离散算子整合为单 Kernel,通过插值掩码片上化与 MLA 原生格式输出。该优化使Kernel Launch次数降低 6 倍,访存量减少 75%,位置编码计算时延压缩 50%。
Kimi K2.5 模型权重达595 GiB,通过引入 W4A8(权重 INT4、激活 INT8)细粒度混合精度量化,可有效压缩存储开销,提升模型吞吐性能。
昇腾MsModelSlim 自动感知、无损量化技术
MsModelSlim 采用多模态敏感度感知量化技术,依托跨模态模型量化实验积累,构建精度敏感度预测模型,实现层次化差异化的量化策略。
通过自动定位视觉编码器(ViT)高频细节保留层、语言模型注意力投影层等精度敏感层,同时精准识别 MoE 路由层、FFN 中间层等性能收益层,在显著降低模型存储与计算开销的同时,有效保持多模态大模型的原始精度表现。
针对 Kimi K2.5 模型制定差异化量化策略
在代表性评测集(TextVQA、GSM8K)上验证,量化方案引入的精度退化控制在 1% 以内;模型权重存储开销由 BF16 下的 595 GiB 压缩至 W4A8 混合精度下的 500 GiB,存储开销下降降低 16%。
针对在线服务TPOT ≤ 50 ms 的时延约束,昇腾实现了Kimi-K2.5的 P/D 分离部署适配与深度优化。PD分离可以打破 Prefill 与 Decode 耦合部署带来的资源竞争与队首阻塞,为两阶段配置独立硬件资源池,最大化吞吐性能。
以Atlas 800 A3为例,资源解耦与并行策略优化:
实现了超大规模 MoE 模型在昇腾硬件上的低延迟、高吞吐与高资源利用率部署。
权重文件已经可以在魔塔社区下载:
https://modelscope.cn/models/Eco-Tech/Kimi-K2.5-W4A8/
我们在昇腾vLLM开源子项目vLLM Ascend的特性分支内准备了详细的部署指导,您可以直接操作部署
https://github.com/LoganJane/vllm-ascend/blob/main/README.md
下一篇