昇腾社区首页
中文
注册

多模态理解特性介绍

多模态理解模型是指能够处理和理解包括多种模态数据的深度学习模型,多模态理解模型将文本、图像、音频或视频等至少两种模态的数据作为输入,从输入的多模态数据中提取特征并进行融合,从而使得多模态理解模型能够实现更全面、更准确的理解和推理能力。

目前仅支持输入为多模态数据,输出为文字数据的多模态理解模型。多模态生成类模型请参考《MindIE SD开发指南》。

限制与约束

  • Atlas 800I A2 推理服务器Atlas 300I Duo 推理卡硬件支持此特性。
  • 模型特性矩阵及相关文档请参考《MindIE模型支持列表》中的“多模态理解模型列表”章节

执行多模态理解模型推理

多模态理解类模型执行推理的方式与大语言模型略有不同,在执行推理时您可参考对应模型的readme进行推理。

具体模型推理请参见执行多模态理解模型推理