推理接口接收的输入类型如下:
1 2 3 4 5 6 | @dataclass class MultimodalInput: input_texts:List | None image_path:List | None video_path:List | None audio_path:List | None |
[{'role': 'user', 'content': 'Write an essay about this image, at least 256 words.'}]或['Write an essay about this image, at least 256 words.']
以InternVL2.5模型接收图片和文本作为输入为例:
如果同时推理多张图,需将每张图的路径解析出来存放到MultimodalInput.image_path对应的变量中。模型推理的时候,会将“input_texts”中的第一个元素和“image_path”中的第一个元素作为一组输入进行推理,“input_texts”中的第二个元素和“image_path”中的第二个元素作为第二组输入进行推理,依次类推,满足一一对应关系。