TGI(全称:Text Generation Inference)是HuggingFace支持的推理部署工具。TGI本身不支持NPU上的模型运行,通过提供昇腾环境下的TGI适配补丁,帮助客户在昇腾环境下运行TGI框架服务。适配后的系统:
上图中,昇腾适配TGI的部分为Model Shard的部分。
支持的TGI版本 |
浮点 |
量化 |
MoE |
单Lora |
多模态模型 |
---|---|---|---|---|---|
v2.0.4 |
同MindIE LLM |
同MindIE LLM |
同MindIE LLM |
同MindIE LLM |
Qwen-VL |
V0.9.4 |
同MindIE LLM |
同MindIE LLM |
- |
同MindIE LLM |
- |