昇腾社区首页
中文
注册
开发者
下载

特性介绍

多模态理解模型是基于大语言模型的深度学习类模型,能够处理并理解多种不同的数据类型。当前多模态理解模型主要是针对文本、图片、视频、音频等数据类型进行处理,并提取整合其特征,最终由大语言基座模型进行理解并产生对应的内容。

  • 主要特点和优势:拥有更完善的跨模态信息抽取能力和更准确的多模态数据理解能力。
  • 应用场景:图像问答、情感分析、自然语言对话、视频分析、自动驾驶等领域。

其数据量多且大的特点,使得数据表征对齐和更高的计算资源要求等成为新的挑战。总的来说,多模态模型将文本、图像、音频或视频等至少两种模态的数据作为输入,从输入的多模态数据中提取特征并进行融合,从而使得多模态模型能够实现更全面、更准确的理解和推理能力。

目前仅支持输入为多模态数据,输出为文字数据的多模态理解模型。多模态生成类模型请参考MindIE SD开发指南

多模态理解类模型执行推理的方式与大语言模型略有不同,在执行推理时您可参考模型仓中对应模型的README进行推理。模型的README路径为:

“${llm_path}/examples/models/{model}/README.md”

限制与约束

  • Atlas 800I A2 推理服务器Atlas 300I Duo 推理卡支持此特性。
  • 模型特性矩阵及相关文档请参考模型支持列表中的“多模态理解模型列表”。