推理接口接收的输入类型如下：

@dataclass
class MultimodalInput:
    input_texts:List | None
    image_path:List | None
    video_path:List | None
    audio_path:List | None

“input_texts”类型为“List[str]”或者“List[dict]”，以Internvl2.5为例，其输入的input_texts可以为：
[{'role': 'user', 'content': 'Write an essay about this image, at least 256 words.'}]或['Write an essay about this image, at least 256 words.']

“image_path”、“video_path”、“audio_path”这三个参数对应路径列表，存放相应模态数据的路径。以图片“image_path”为例，这里必须存放每张图片的对应路径，而不能是目录。

以InternVL2.5模型接收图片和文本作为输入为例：

如果同时推理多张图，需将每张图的路径解析出来存放到MultimodalInput.image_path对应的变量中。模型推理的时候，会将“input_texts”中的第一个元素和“image_path”中的第一个元素作为一组输入进行推理，“input_texts”中的第二个元素和“image_path”中的第二个元素作为第二组输入进行推理，依次类推，满足一一对应关系。