昇腾社区首页
中文
注册
开发者
下载

多模态模型进行推理时,出现输入image_url/video_url/audio_url格式报错问题

问题描述

多模态模型输入image_url/video_url/audio_url格式进行推理时,出现类似以下报错提示:

File "/usr/local/Ascend/atb-models/examples/models/qwen2_vl/run_pa.py", line 365, in <module>    raise TypeError("The multimodal input field currently only supports 'image' and 'video'.")

原因分析

image_url/video_url/audio_url参数中的值未符合指定的要求。

解决方案

Image

  1. 格式一:{"type": "image_url", "image_url": image_url}, 此类格式的image_url支持本地路径、jpg图片的base64编码、http和https协议url。

2. 格式二:{"type": "image_url", "image_url": {"url": {image_url}}},此类格式的image_url支持本地路径、jpg图片的base64编码、http和https协议url。

3. 格式三:{"type": "image_url", "image_url": {"url": "file://{local_path}"},此类格式仅支持本地路径。

4. 格式四:{"type": "image_url", "image_url": {"url": f"data:<mime_type>/<subtype>;base64,<base64_data>"}},此类格式仅支持base64编码,源格式可以为jpg、jpeg、png,对应的MIME如下表所示。

格式

MIME

jpg

image/jpeg

jpeg

image/jpeg

png

image/png

Video

  1. 格式一:{"type": "video_url", "video_url": video_url}, 此类格式的video_url支持本地路径、http和https协议url。

  2. 格式二:{"type": "video_url", "video_url": {"url": {video_url}}},此类格式的video_url支持本地路径、http和https协议url。

  3. 格式三:{"type": "video_url", "video_url": {"url": "file://{local_path}"},此类格式仅支持本地路径。

  4. 格式四:{"type": "video_url", "video_url": {"url": f"data:<mime_type>/<subtype>;base64,<base64_data>"}},此类格式仅支持base64编码,源格式可以为mp4、avi、wmv,对应的MIME如下表所示。另,由于视频编码后的长度可能超出MindIE Service服务化请求字符长度的最大上限,因此不建议使用base64编码格式传输视频。

    格式

    MIME

    mp4

    video/mp4

    avi

    video/x-msvideo

    wmv

    video/x-ms-wmv

Audio

  1. 格式一:{"type": "audio_url", "audio_url": audio_url}, 此类格式的audio_url支持本地路径、http和https协议url。
  2. 格式二:{"type": "audio_url", "audio_url": {"url": {audio_url}}},此类格式的audio_url支持本地路径、http和https协议url。
  3. 格式三:{"type": "audio_url", "audio_url": {"url": "file://{local_path}"},此类格式仅支持本地路径。
  4. 格式四:{"type": "audio_url", "audio_url": {"url": f"data:<mime_type>/<subtype>;base64,<base64_data>"}},此类格式仅支持base64编码,源格式可以为mp3、wav、flac,对应的MIME如下表所示。

    格式

    MIME

    mp3

    audio/mpeg

    wav

    audio/x-wav

    flac

    audio/flac

  5. 格式五:{"type": "input_audio", "input_audio": {"data": f"{audio_base64}", "format": "wav"}},当type为input_audio时,仅支持base64编码格式,源格式支持mp3、wav、flac,同时,必须通过format字段明确源格式类型。