昇腾社区首页
中文
注册

大模型推理迁移优化场景

MindIE支持以下大模型推理场景,用户可通过对应组件将大模型迁移适配昇腾设备,获取MindIE全流程推理服务。

服务化调度兼容vLLMTGI(Text Generation Inference)推理服务接口,支持用户通过兼容接口接入MindIE推理加速能力。

您可参考迁移流程,了解整体的推理迁移及适配流程。

迁移流程

图1 大模型推理迁移和优化流程
  1. 安装部署MindIE,安装流程请参见MindIE安装指南

    如需对接MindIE-Service服务化调度推理,请在安装部署过程中包含MindIE-Service组件。

  2. 基于ATB高性能加速库迁移适配模型,可参考以下步骤进行。
    1. 通过迁移流程,了解迁移适配方案。
    2. 通过快速入门,快速上手基于ATB高性能加速库的大模型迁移适配流程。
    3. 通过大模型迁移适配提供的详细操作步骤,结合自身需求,将大模型迁移适配至昇腾设备。
    4. 迁移完成后的大模型,可通过昇腾提供的大模型推理精度工具对大模型进行精度调优,使用性能分析工具对大模型进行性能调优
  3. (可选)完成大模型推理迁移与适配后,还可以选择使用MindIE-Service对接大模型服务化调度推理。流程请参考服务化调度推理