大模型推理迁移优化场景

MindIE支持以下大模型推理场景，用户可通过对应组件将大模型迁移适配昇腾设备，获取MindIE全流程推理服务。

服务化调度兼容vLLM、TGI（Text Generation Inference）推理服务接口，支持用户通过兼容接口接入MindIE推理加速能力。

您可参考迁移流程，了解整体的推理迁移及适配流程。

图1 大模型推理迁移和优化流程

安装部署MindIE，安装流程请参见《MindIE安装指南》。
如需对接MindIE-Service服务化调度推理，请在安装部署过程中包含MindIE-Service组件。
基于ATB高性能加速库迁移适配模型，可参考以下步骤进行。
1. 通过迁移流程，了解迁移适配方案。
2. 通过快速入门，快速上手基于ATB高性能加速库的大模型迁移适配流程。
3. 通过大模型迁移适配提供的详细操作步骤，结合自身需求，将大模型迁移适配至昇腾设备。
4. 迁移完成后的大模型，可通过昇腾提供的大模型推理精度工具对大模型进行精度调优，使用性能分析工具对大模型进行性能调优。
（可选）完成大模型推理迁移与适配后，还可以选择使用MindIE-Service对接大模型服务化调度推理。流程请参考服务化调度推理。