大模型推理迁移优化场景
MindIE支持以下大模型推理场景,用户可通过对应组件将大模型迁移适配昇腾设备,获取MindIE全流程推理服务。
服务化调度兼容vLLM、TGI(Text Generation Inference)推理服务接口,支持用户通过兼容接口接入MindIE推理加速能力。
您可参考迁移流程,了解整体的推理迁移及适配流程。
迁移流程
图1 大模型推理迁移和优化流程


- 安装部署MindIE,安装流程请参见《MindIE安装指南》。
如需对接MindIE-Service服务化调度推理,请在安装部署过程中包含MindIE-Service组件。
- 基于ATB高性能加速库迁移适配模型,可参考以下步骤进行。
- (可选)完成大模型推理迁移与适配后,还可以选择使用MindIE-Service对接大模型服务化调度推理。流程请参考服务化调度推理。