输入类型

推理接口接收的输入类型如下:

1
2
3
4
5
6
@dataclass
class MultimodalInput:
    input_texts:List | None
    image_path:List | None
    video_path:List | None
    audio_path:List | None

以InternVL2.5模型接收图片和文本作为输入为例:

如果同时推理多张图,需将每张图的路径解析出来存放到MultimodalInput.image_path对应的变量中。模型推理的时候,会将“input_texts”中的第一个元素和“image_path”中的第一个元素作为一组输入进行推理,“input_texts”中的第二个元素和“image_path”中的第二个元素作为第二组输入进行推理,依次类推,满足一一对应关系。