输入类型
推理接口接收的输入类型如下:
@dataclass class MultimodalInput: input_texts:List | None image_path:List | None video_path:List | None audio_path:List | None
- “input_texts”类型为“List[str]”或者“List[dict]”,以InternVL2.5为例,其输入的input_texts可以为:
[{'role': 'user', 'content': 'Write an essay about this image, at least 256 words.'}]或['Write an essay about this image, at least 256 words.']
- “image_path”、“video_path”、“audio_path”这三个参数对应路径列表,存放相应模态数据的路径。以图片“image_path”为例,这里必须存放每张图片的对应路径,而不能是目录。
以InternVL2.5模型接收图片和文本作为输入为例:
如果同时推理多张图,需将每张图的路径解析出来存放到MultimodalInput.image_path对应的变量中。模型推理的时候,会将“input_texts”中的第一个元素和“image_path”中的第一个元素作为一组输入进行推理,“input_texts”中的第二个元素和“image_path”中的第二个元素作为第二组输入进行推理,依次类推,满足一一对应关系。
父主题: 入口端适配