昇腾社区首页
中文
注册

输入类型

推理接口接收的输入类型如下:

@dataclass
class MultimodalInput:
    input_texts:List | None
    image_path:List | None
    video_path:List | None
    audio_path:List | None
  • “input_texts”类型为“List[str]”或者“List[dict]”,以InternVL2.5为例,其输入的input_texts可以为:

    [{'role': 'user', 'content': 'Write an essay about this image, at least 256 words.'}]或['Write an essay about this image, at least 256 words.']

  • “image_path”、“video_path”、“audio_path”这三个参数对应路径列表,存放相应模态数据的路径。以图片“image_path”为例,这里必须存放每张图片的对应路径,而不能是目录。

以InternVL2.5模型接收图片和文本作为输入为例:

如果同时推理多张图,需将每张图的路径解析出来存放到MultimodalInput.image_path对应的变量中。模型推理的时候,会将“input_texts”中的第一个元素和“image_path”中的第一个元素作为一组输入进行推理,“input_texts”中的第二个元素和“image_path”中的第二个元素作为第二组输入进行推理,依次类推,满足一一对应关系。