KTransformers新增支持昇腾NPU开源适配,助力AI算力普惠
开发者生态伙伴
发表于 2025/10/30
开发者生态伙伴
发表于 2025/10/30
10月28日,由趋境科技与清华 KVCache.AI 团队共同开源的高性能异构推理框架 KTransformers,宣布已完成对昇腾NPU 的全面适配支持。
通过双方协作,本次更新深度优化了CMake构建系统、流管理与底层算子实现,使开发者能够在单卡昇腾卡+鲲鹏CPU上高效运行 DeepSeek-R1/V3-671B 等千亿级参数大模型。
在华为Atlas 300I A2 推理卡上的实测数据显示,运行 DeepSeek-R1 671B 大模型时,单卡单并发 Decode 速度达到 14.9 tokens/s。
通过以下多项系统级优化,KTransformers 在大模型推理中实现了显著的性能提升与资源占用优化,显存占用降低百分之九十以上:
KTransformers 此前已在 GitHub 获得广泛社区关注,此次更新是 KTransformers 首次实现昇腾NPU算力方案的完整适配,为AI软硬件生态提供了高性能、低门槛的推理解决方案,也为广大开发者提供了更灵活、高效的异构推理新选择。
部署文档:
性能验证报告:
https://github.com/kvcache-ai/ktransformers/pull/1525
上一篇
下一篇