昇腾社区首页
中文
注册
开发者
下载

MindIE是什么

MindIE(Mind Inference Engine,昇腾推理引擎)是华为昇腾针对AI全场景业务的推理加速套件。通过分层开放AI能力,支撑用户多样化的AI业务需求,使能百模千态,释放昇腾硬件设备算力。MindIE向上支持多种主流AI框架,向下对接不同类型昇腾AI处理器,提供多层次编程接口,帮助用户快速构建基于昇腾平台的推理业务。

总体架构

MindIE提供了基于多种AI场景下的推理解决方案,帮助用户快速开展业务迁移、业务定制。MindIE架构图如图1所示,主要组件介绍如表1所示。

图1 昇腾推理引擎架构图
表1 组件介绍

名称

说明

MindIE Motor

MindIE Motor是面向LLM PD分离推理的请求调度框架,通过开放、可扩展的推理服务化平台架构提供推理服务化能力,向下对接MindIE LLM,满足大语言模型高性能推理需求。

MindIE SD

MindIE SD旨在构建昇腾亲和的多模态加速系列套件,配合业内模型套件(如:diffusers),提升多模态推理在昇腾上的效率。

MindIE LLM

MindIE LLM是大语言模型推理组件,基于昇腾硬件提供业界通用大模型推理能力,同时提供多并发请求的调度功能,支持Continuous Batching、Page Attention、FlashDecoding等加速特性,使能用户高性能推理需求。

MindIE Turbo

MindIE Turbo是昇腾为所有推理引擎提供的通用昇腾硬件加速套件,在内存、通信、编解码等层面上提供加速,达到更大的吞吐量、更低的时延。目前已支持vLLM的加速,其他引擎加速敬请期待。

关键功能特性

  • 服务化部署

    提供PD分离推理服务化的请求调度以及可靠性、可用性和可服务性的能力,详情请参见MindIE Motor开发指南

  • 多模态生成

    支持多模态模型迁移推理,高效实现应用部署,场景化落地SD应用,满足用户精度及性能要求,详情请参见MindIE SD开发指南

  • 大模型推理

    提供大模型推理能力,支持大模型业务全流程,逐级能力开放,使能大模型客户需求定制化,详情请参见MindIE LLM开发指南

  • 推理引擎加速插件库

    在昇腾硬件上开发的LLM推理引擎加速插件库,包含了自研的大语言模型优化算法和与推理引擎框架相关的优化。提供一系列模块化与插件化的接口,使能三方推理引擎接入并加速,详情请参见MindIE Turbo开发指南

快速安装MindIE

安装MindIE请参考MindIE安装指南