多模态理解模型接入服务化

当前主流的一些三方推理后端包括Triton、TGI、VLLM和OpenAI,每个推理后端(包括MindIE)都有各自的URL请求格式。其中OpenAI的接口是独立于其他格式,因此本章节将分别介绍非OpenAI接口和OpenAI接口的服务化对接流程。

适配涉及到模型的“Router”中的tokenize()接口以及“InputBuilder”中的make_context()接口,整个接入流程将以Qwen-VL为例。