昇腾社区首页
EN
注册

MindIE使用场景

MindIE使用场景分为大模型服务化部署、大模型推理迁移流程和传统模型推理迁移流程三大场景,详情如下所示。

对于大模型服务化部署场景,当前版本仅支持大语言模型列表中的模型。

场景

涉及组件

具体步骤

链接

大模型服务化部署

MindIE Service

  1. 环境准备:
    1. 部署Kubernetes、MindCluster。(仅集群场景使用)
    2. 部署MindIE MS。(仅集群场景使用)
    3. 部署MindIE Server
  2. 启动服务。
  3. 服务调用:
    1. 使用MindIE Server推理服务。
    2. 使用MindIE Client发送请求(包括模型推理、请求管理和服务状态查询,用户调用接口即可实现与MindIE Server通信)。
    3. 使用MindIE Benchmark工具测试推理性能和精度。
  4. 性能调优。
  1. 环境准备:
    1. 《MindIE Service开发指南》的“集群服务部署 > 环境准备”章节
    2. 《MindIE Service开发指南》的“快速开始 > 环境准备”章节
  2. 《MindIE Service开发指南》的“快速开始 > 启动服务”章节
  3. 服务调用:
    1. 《MindIE Service开发指南》的“MindIE Service组件 > MindIE Server > 使用指导”章节
    2. 《MindIE Service开发指南》的“MindIE Service组件 > MindIE Client > 功能介绍”章节
    3. 《MindIE Service开发指南》的“MindIE Service组件 > MindIE Service Tools > MindIE Benchmark > 功能介绍”章节
  4. 《MindIE Service开发指南》的“性能调优 > 性能调优流程”章节

vLLM

  1. 环境准备:
    1. 版本配套关系:
      • 当前基于CANN包 8.0.RC3,Python 3.10,torch 2.1.0进行环境部署与运行,请安装相关适配版本。

      • 当前适配vLLM版本包括v0.3.3和v0.4.2。

    2. 安装HDK、CANN、PTA、MindIE配套版本。
    3. 安装vllm和vllm-npu。
  2. 服务端使用拉起服务脚本拉起vLLM在线推理服务。
  3. 客户端使用curl、requests等方式向服务端发送推理请求。

《MindIE LLM开发指南》的“服务化调度推理使用流程 > vLLM基于Text Generator接口开发指南 > 适配说明 > 环境安装与启动服务”章节

Triton

  1. 环境准备:
    1. 版本配套关系:
      • 当前MindIE_Backend基于CANN包 8.0.RC3,Python 3.10,torch 2.1.0进行环境部署与运行,请安装相关适配版本。

      • 当前MindIE_Backend适配Triton版本为r24.02。

    2. 安装HDK、CANN、PTA、ATB Models。
    3. 安装MindIE LLM
    4. 安装Triton Inference Server。
    5. 安装Triton Client。
    6. 安装MindIE Backend。
  2. 启动服务执行推理。
  3. Triton Client发送测试请求。

《MindIE LLM开发指南》的“服务化调度推理使用流程 > Triton基于LLM Manager接口开发指南 > 适配说明 > 环境安装与启动服务”章节

TGI

  1. 环境准备:
    1. MindIE部署,包括部署昇腾适配驱动和固件、CANN、Kernel、MindIE、PyTorch相关包、ATB Models模型库。
    2. 安装Tgi-MindIE包,当前Tgi-MindIE适配TGI版本包括v0.9.4和v2.0.4。
  2. 服务端使用拉起服务脚本拉起TGI在线推理服务。
  3. 客户端使用curl、requests等方式向服务端发送推理请求。

《MindIE LLM开发指南》的“服务化调度推理使用流程 > TGI基于Text Generator接口开发指南 > 适配说明 > 环境安装与启动服务”章节

TEI

  1. 环境准备:
    1. MindIE部署,包括部署昇腾适配驱动和固件、CANN、Kernel、MindIE、PyTorch相关包、ATB Models模型库。
    2. 利用MindIE Torch对文本嵌入模型/重排序模型进行编译优化。
    3. 根据教程进行代码依赖安装、编译。
  2. 服务端使用拉起服务脚本拉起TEI在线推理服务。
  3. 客户端使用curl、requests等方式向服务端发送推理请求。

《MindIE Torch开发指南》的“样例参考 > TEI基于MindIE Torch接口开发介绍 > 适配样例 > 启动服务”章节

大模型推理迁移流程

MindIE LLM

  1. 配置MindIE LLM
  2. 获取模型、权重。
  3. 权重转换。(可选)
  4. 权重量化。(可选)
  5. 推理。
  1. 《MindIE安装指南》中“配置MindIE > 配置MindIE LLM”章节
  2. 《MindIE LLM开发指南》的“模型推理使用流程 > ATB Models使用”章节
  3. 《MindIE LLM开发指南》的“特性介绍 > 量化特性介绍”章节

MindIE SD

  1. 准备模型权重。
  2. 文生视频推理:
    1. 导入依赖包。
    2. 配置文生视频工作流。
    3. 模型编译。
    4. 模型推理。

《MindIE SD开发指南》的“快速上手”章节

传统模型推理迁移流程

  • MindIE Torch
  • MindIE RT
  1. 导入MindIE Torch框架。
  2. 模型导出。
  3. 模型编译。
  4. 模型推理。
  5. 资源释放。

《MindIE Torch开发指南》的“模型迁移快速入门”章节

Onnx

  1. 准备模型权重。
  2. 执行推理:
    1. 安装依赖。
    2. 导出Onnx和Om文件。
    3. 实现前后处理代码。
    4. 模型推理。

《CANN 开发工具指南》的“ATC工具 > 快速入门”章节