昇腾社区首页
中文
注册

功能介绍

MindIE SD模型支持列表如表1所示,支持视图生成的主要功能场景如下:

  • 支持OpenSora v1.2模型,视频生成典型多模态生成场景。
  • 支持自定义高性能算子接入,支持扩散转换模型缓存(Diffusion Transformer Cache, DiT-Cache)、动态序列并行(Dynamic Sequence Parallel, DSP)等性能算法优化,参数使用方法见接口说明。
表1 模型列表

模型

功能

说明

OpenSora v1.2

文本到视频的扩散模型,能够在给定任何文本输入的情况下生成相符的视频。

MindIE SD软件栈支持的视图生成场景。

Stable Diffusion(包含1.5、2.1版本)

文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。

MindIE SD软件栈暂未支持,当前版本仅提供模型参考样例,请单击链接获取。在各个模型README中给出了推理指导,包含了模型概述、推理环境准备、快速上手、模型推理性能&精度,用户可根据推理流程进行图像、视频和语音生成。

Stable Diffusion XL

文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。

Stable Diffusion 3

文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。

Stable Video Diffusion

图像到视频的扩散模型,能够在给定任何图像输入的情况下生成相符的视频。

Stable Audio Open v1.0

文本到语音的扩散模型,能够在给定任何文本输入的情况下生成相符的语音。

OpenSora v1.0

文本到视频的扩散模型,能够在给定任何文本输入的情况下生成相符的视频。