MindIE使用场景

MindIE使用场景分为大模型服务化部署、大模型推理迁移流程和传统模型推理迁移流程三大场景，详情如下所示。

对于大模型服务化部署场景，当前版本仅支持大语言模型列表中的模型。

场景	涉及组件	具体步骤	链接
大模型服务化部署	MindIE Service	环境准备：部署Kubernetes、MindCluster。（仅集群场景使用）部署MindIE MS。（仅集群场景使用）部署MindIE Server。启动服务。服务调用：使用MindIE Server推理服务。使用MindIE Client发送请求（包括模型推理、请求管理和服务状态查询，用户调用接口即可实现与MindIE Server通信）。使用MindIE Benchmark工具测试推理性能和精度。性能调优。	环境准备：《MindIE Service开发指南》的“集群服务部署 > 环境准备”章节《MindIE Service开发指南》的“快速开始 > 环境准备”章节《MindIE Service开发指南》的“快速开始 > 启动服务”章节服务调用：《MindIE Service开发指南》的“MindIE Service组件 > MindIE Server > 使用指导”章节《MindIE Service开发指南》的“MindIE Service组件 > MindIE Client > 功能介绍”章节《MindIE Service开发指南》的“MindIE Service组件 > MindIE Service Tools > MindIE Benchmark > 功能介绍”章节《MindIE Service开发指南》的“性能调优 > 性能调优流程”章节
	vLLM	环境准备：版本配套关系：当前基于CANN包 8.0.RC3，Python 3.10，torch 2.1.0进行环境部署与运行，请安装相关适配版本。当前适配vLLM版本包括v0.3.3和v0.4.2。安装HDK、CANN、PTA、MindIE配套版本。安装vllm和vllm-npu。服务端使用拉起服务脚本拉起vLLM在线推理服务。客户端使用curl、requests等方式向服务端发送推理请求。	《MindIE LLM开发指南》的“服务化调度推理使用流程 > vLLM基于Text Generator接口开发指南 > 适配说明 > 环境安装与启动服务”章节
	Triton	环境准备：版本配套关系：当前MindIE_Backend基于CANN包 8.0.RC3，Python 3.10，torch 2.1.0进行环境部署与运行，请安装相关适配版本。当前MindIE_Backend适配Triton版本为r24.02。安装HDK、CANN、PTA、ATB Models。安装MindIE LLM。安装Triton Inference Server。安装Triton Client。安装MindIE Backend。启动服务执行推理。 Triton Client发送测试请求。	《MindIE LLM开发指南》的“服务化调度推理使用流程 > Triton基于LLM Manager接口开发指南 > 适配说明 > 环境安装与启动服务”章节
	TGI	环境准备： MindIE部署，包括部署昇腾适配驱动和固件、CANN、Kernel、MindIE、PyTorch相关包、ATB Models模型库。安装Tgi-MindIE包，当前Tgi-MindIE适配TGI版本包括v0.9.4和v2.0.4。服务端使用拉起服务脚本拉起TGI在线推理服务。客户端使用curl、requests等方式向服务端发送推理请求。	《MindIE LLM开发指南》的“服务化调度推理使用流程 > TGI基于Text Generator接口开发指南 > 适配说明 > 环境安装与启动服务”章节
	TEI	环境准备： MindIE部署，包括部署昇腾适配驱动和固件、CANN、Kernel、MindIE、PyTorch相关包、ATB Models模型库。利用MindIE Torch对文本嵌入模型/重排序模型进行编译优化。根据教程进行代码依赖安装、编译。服务端使用拉起服务脚本拉起TEI在线推理服务。客户端使用curl、requests等方式向服务端发送推理请求。	《MindIE Torch开发指南》的“样例参考 > TEI基于MindIE Torch接口开发介绍 > 适配样例 > 启动服务”章节
大模型推理迁移流程	MindIE LLM	配置MindIE LLM。获取模型、权重。权重转换。（可选）权重量化。（可选）推理。	《MindIE安装指南》中“配置MindIE > 配置MindIE LLM”章节《MindIE LLM开发指南》的“模型推理使用流程 > ATB Models使用”章节《MindIE LLM开发指南》的“特性介绍 > 量化特性介绍”章节
大模型推理迁移流程	MindIE SD	准备模型权重。文生视频推理：导入依赖包。配置文生视频工作流。模型编译。模型推理。	《MindIE SD开发指南》的“快速上手”章节
传统模型推理迁移流程	MindIE Torch MindIE RT	导入MindIE Torch框架。模型导出。模型编译。模型推理。资源释放。	《MindIE Torch开发指南》的“模型迁移快速入门”章节
传统模型推理迁移流程	Onnx	准备模型权重。执行推理：安装依赖。导出Onnx和Om文件。实现前后处理代码。模型推理。	《CANN 开发工具指南》的“ATC工具 > 快速入门”章节