功能介绍

MindIE SD模型支持列表如表1所示，支持视图生成的主要功能场景如下：

支持OpenSora v1.2模型，视频生成典型多模态生成场景。
支持自定义高性能算子接入，支持扩散转换模型缓存（Diffusion Transformer Cache, DiT-Cache）、动态序列并行（Dynamic Sequence Parallel, DSP）等性能算法优化，参数使用方法见接口说明。

表1 模型列表
模型	功能	说明
OpenSora v1.2	文本到视频的扩散模型，能够在给定任何文本输入的情况下生成相符的视频。	MindIE SD软件栈支持的视图生成场景。
Stable Diffusion（包含1.5、2.1版本）	文本到图像的扩散模型，能够在给定任何文本输入的情况下生成相符的图像。	MindIE SD软件栈暂未支持，当前版本仅提供模型参考样例，请单击链接获取。在各个模型README中给出了推理指导，包含了模型概述、推理环境准备、快速上手、模型推理性能&精度，用户可根据推理流程进行图像、视频和语音生成。
Stable Diffusion XL	文本到图像的扩散模型，能够在给定任何文本输入的情况下生成相符的图像。
Stable Diffusion 3	文本到图像的扩散模型，能够在给定任何文本输入的情况下生成相符的图像。
Stable Video Diffusion	图像到视频的扩散模型，能够在给定任何图像输入的情况下生成相符的视频。
Stable Audio Open v1.0	文本到语音的扩散模型，能够在给定任何文本输入的情况下生成相符的语音。
OpenSora v1.0	文本到视频的扩散模型，能够在给定任何文本输入的情况下生成相符的视频。