功能介绍

总览

TEI(全称:Text Embeddings Inference)是由Huggingface推出的高性能推理框架,旨在简化和加速文本嵌入(Embedding)和重排序(Reranker)模型在生产环境中的部署。

TEI支持基于HTTP和gRPC协议的服务接口,能够高效处理文本嵌入的生成和基于文本相关性的重排序等任务;TEI框架同时也支持多种嵌入模型和重排序模型,并提供了灵活的请求批处理、模型管理和动态调度功能。通过TEI,开发者可以轻松地扩展和优化文本嵌入和重排序服务,以满足实时应用和批量处理的需求,特别适用于自然语言处理相关的在线推理任务,能够满足RAG(全称:Retrieval-Augmented Generation)、信息检索 (IR)、自然语言理解 (NLU)、文本分类以及个性化推荐系统等下游应用场景。以下内容介绍了如何面向昇腾推理环境适配TEI框架,并拉起经过MindIE Torch与ATB后端组图优化后的模型。

TEI适配昇腾环境及接入多种模型后端(MindIE Torch与ATB)整体方案介绍

原生TEI仅支持GPU硬件环境,且Python后端接口仅支持Embedding模型的embed服务。为拓展其Python后端功能、将其适配到昇腾环境,并能够基于MindIE Torch与ATB进行组图优化,进行了以下适配。

TEI框架接入MindIE Torch与ATB后端所支持功能特性与模型列表

环境变量介绍

环境变量名

说明

取值范围

缺省值

TEI_NPU_DEVICE

TEI所使用的NPU设备编号。

[0,NPU卡数-1]

0

TEI_NPU_BACKEND

TEI所使用的模型后端

mindietorch或atb

mindietorch