多模态模型进行推理时,出现输入image_url/video_url/audio_url格式报错问题
问题描述
多模态模型输入image_url/video_url/audio_url格式进行推理时,出现类似以下报错提示:
File "/usr/local/Ascend/atb-models/examples/models/qwen2_vl/run_pa.py", line 365, in <module> raise TypeError("The multimodal input field currently only supports 'image' and 'video'.")
原因分析
image_url/video_url/audio_url参数中的值未符合指定的要求。
解决方案
Image
格式一:{"type": "image_url", "image_url": image_url}, 此类格式的image_url支持本地路径、jpg图片的base64编码、http和https协议url。
2. 格式二:{"type": "image_url", "image_url": {"url": {image_url}}},此类格式的image_url支持本地路径、jpg图片的base64编码、http和https协议url。
3. 格式三:{"type": "image_url", "image_url": {"url": "file://{local_path}"},此类格式仅支持本地路径。
4. 格式四:{"type": "image_url", "image_url": {"url": f"data:<mime_type>/<subtype>;base64,<base64_data>"}},此类格式仅支持base64编码,源格式可以为jpg、jpeg、png,对应的MIME如下表所示。
格式 |
MIME |
|---|---|
jpg |
image/jpeg |
jpeg |
image/jpeg |
png |
image/png |
Video
格式一:{"type": "video_url", "video_url": video_url}, 此类格式的video_url支持本地路径、http和https协议url。
格式二:{"type": "video_url", "video_url": {"url": {video_url}}},此类格式的video_url支持本地路径、http和https协议url。
格式三:{"type": "video_url", "video_url": {"url": "file://{local_path}"},此类格式仅支持本地路径。
- 格式四:{"type": "video_url", "video_url": {"url": f"data:<mime_type>/<subtype>;base64,<base64_data>"}},此类格式仅支持base64编码,源格式可以为mp4、avi、wmv,对应的MIME如下表所示。另,由于视频编码后的长度可能超出MindIE Service服务化请求字符长度的最大上限,因此不建议使用base64编码格式传输视频。
格式
MIME
mp4
video/mp4
avi
video/x-msvideo
wmv
video/x-ms-wmv
Audio
- 格式一:{"type": "audio_url", "audio_url": audio_url}, 此类格式的audio_url支持本地路径、http和https协议url。
- 格式二:{"type": "audio_url", "audio_url": {"url": {audio_url}}},此类格式的audio_url支持本地路径、http和https协议url。
- 格式三:{"type": "audio_url", "audio_url": {"url": "file://{local_path}"},此类格式仅支持本地路径。
- 格式四:{"type": "audio_url", "audio_url": {"url": f"data:<mime_type>/<subtype>;base64,<base64_data>"}},此类格式仅支持base64编码,源格式可以为mp3、wav、flac,对应的MIME如下表所示。
格式
MIME
mp3
audio/mpeg
wav
audio/x-wav
flac
audio/flac
- 格式五:{"type": "input_audio", "input_audio": {"data": f"{audio_base64}", "format": "wav"}},当type为input_audio时,仅支持base64编码格式,源格式支持mp3、wav、flac,同时,必须通过format字段明确源格式类型。