快速介绍

TGI简介与TGI适配昇腾整体方案介绍

TGI(全称:Text Generation Inference)是HuggingFace支持的推理部署工具。TGI本身不支持NPU上的模型运行,通过提供昇腾环境下的TGI适配补丁,帮助客户在昇腾环境下运行TGI框架服务。适配后的系统:

图1 TGI开源架构

上图中,昇腾适配TGI的部分为Model Shard的部分。

支持的版本特性及模型

表1 支持的版本特性及模型

支持的TGI版本

浮点

量化

MoE

单Lora

多模态模型

v2.0.4

MindIE LLM

MindIE LLM

MindIE LLM

MindIE LLM

Qwen-VL

V0.9.4

MindIE LLM

MindIE LLM

-

MindIE LLM

-