MindIE使用场景 MindIE使用场景分为大模型服务化部署、大模型推理迁移流程和传统模型推理迁移流程三大场景,详情如下所示。 对于大模型服务化部署场景,当前版本仅支持大语言模型列表中的模型。 场景 涉及组件 具体步骤 链接 大模型服务化部署 MindIE Service 环境准备:部署Kubernetes、MindCluster。(仅集群场景使用)部署MindIE MS。(仅集群场景使用)部署MindIE Server。 启动服务。服务调用:使用MindIE Server推理服务。使用MindIE Client发送请求(包括模型推理、请求管理和服务状态查询,用户调用接口即可实现与MindIE Server通信)。使用MindIE Benchmark工具测试推理性能和精度。 性能调优。 环境准备:《MindIE Service开发指南》的“集群服务部署 > 环境准备”章节《MindIE Service开发指南》的“快速开始 > 环境准备”章节 《MindIE Service开发指南》的“快速开始 > 启动服务”章节服务调用:《MindIE Service开发指南》的“MindIE Service组件 > MindIE Server > 使用指导”章节《MindIE Service开发指南》的“MindIE Service组件 > MindIE Client > 功能介绍”章节《MindIE Service开发指南》的“MindIE Service组件 > MindIE Service Tools > MindIE Benchmark > 功能介绍”章节 《MindIE Service开发指南》的“性能调优 > 性能调优流程”章节 vLLM 环境准备:版本配套关系:当前基于CANN包 8.0.RC3,Python 3.10,torch 2.1.0进行环境部署与运行,请安装相关适配版本。 当前适配vLLM版本包括v0.3.3和v0.4.2。 安装HDK、CANN、PTA、MindIE配套版本。安装vllm和vllm-npu。 服务端使用拉起服务脚本拉起vLLM在线推理服务。客户端使用curl、requests等方式向服务端发送推理请求。 《MindIE LLM开发指南》的“服务化调度推理使用流程 > vLLM基于Text Generator接口开发指南 > 适配说明 > 环境安装与启动服务”章节 Triton 环境准备:版本配套关系:当前MindIE_Backend基于CANN包 8.0.RC3,Python 3.10,torch 2.1.0进行环境部署与运行,请安装相关适配版本。 当前MindIE_Backend适配Triton版本为r24.02。 安装HDK、CANN、PTA、ATB Models。安装MindIE LLM。安装Triton Inference Server。安装Triton Client。安装MindIE Backend。 启动服务执行推理。Triton Client发送测试请求。 《MindIE LLM开发指南》的“服务化调度推理使用流程 > Triton基于LLM Manager接口开发指南 > 适配说明 > 环境安装与启动服务”章节 TGI 环境准备:MindIE部署,包括部署昇腾适配驱动和固件、CANN、Kernel、MindIE、PyTorch相关包、ATB Models模型库。安装Tgi-MindIE包,当前Tgi-MindIE适配TGI版本包括v0.9.4和v2.0.4。 服务端使用拉起服务脚本拉起TGI在线推理服务。客户端使用curl、requests等方式向服务端发送推理请求。 《MindIE LLM开发指南》的“服务化调度推理使用流程 > TGI基于Text Generator接口开发指南 > 适配说明 > 环境安装与启动服务”章节 TEI 环境准备:MindIE部署,包括部署昇腾适配驱动和固件、CANN、Kernel、MindIE、PyTorch相关包、ATB Models模型库。利用MindIE Torch对文本嵌入模型/重排序模型进行编译优化。根据教程进行代码依赖安装、编译。 服务端使用拉起服务脚本拉起TEI在线推理服务。客户端使用curl、requests等方式向服务端发送推理请求。 《MindIE Torch开发指南》的“样例参考 > TEI基于MindIE Torch接口开发介绍 > 适配样例 > 启动服务”章节 大模型推理迁移流程 MindIE LLM 配置MindIE LLM。获取模型、权重。权重转换。(可选)权重量化。(可选)推理。 《MindIE安装指南》中“配置MindIE > 配置MindIE LLM”章节《MindIE LLM开发指南》的“模型推理使用流程 > ATB Models使用”章节《MindIE LLM开发指南》的“特性介绍 > 量化特性介绍”章节 MindIE SD 准备模型权重。文生视频推理:导入依赖包。配置文生视频工作流。模型编译。模型推理。 《MindIE SD开发指南》的“快速上手”章节 传统模型推理迁移流程 MindIE TorchMindIE RT 导入MindIE Torch框架。模型导出。模型编译。模型推理。资源释放。 《MindIE Torch开发指南》的“模型迁移快速入门”章节 Onnx 准备模型权重。执行推理:安装依赖。导出Onnx和Om文件。实现前后处理代码。模型推理。 《CANN 开发工具指南》的“ATC工具 > 快速入门”章节