功能介绍

MindIE SD模型支持列表如表1所示，支持视图生成的主要功能场景如下（模型更多特性详情请参见模型支持列表中的“多模态生成模型列表”页签）：

支持表1所示模型，图像、视频和语音多模态生成场景，根据各个模型的README进行推理适配与加速。README包括：模型概述、推理环境准备、快速上手、性能和精度的数据参考。
支持自定义高性能算子接入，支持扩散转换模型缓存（Diffusion Transformer Cache, DiT-Cache）、动态序列并行（Dynamic Sequence Parallel, DSP）等性能算法优化，算法使用方法可通过输入参数、或config文件进行配置。

表1 模型列表
模型	功能	模型链接
OpenSora v1.2	文本到视频的扩散模型，能够在给定任何文本输入的情况下生成相符的视频。	模型仓链接
DiT	DiT（Diffusion Transformer）是一种基于扩散模型（Diffusion Models）和Transformer架构的新型扩散模型，具有强大的生成能力与序列数据处理优势。	模型仓链接
sd-webui	基于Gradio库的WebUi界面，支持设置输入和参数用于SD模型的文生图、图生图等功能。	模型仓链接
Stable Diffusion 1.5	文本到图像的扩散模型，能够在给定任何文本输入的情况下生成相符的图像。	模型仓链接
Stable Diffusion2.1	文本到图像的扩散模型，能够在给定任何文本输入的情况下生成相符的图像。	模型仓链接
Stable Diffusion XL	文本到图像的扩散模型，能够在给定任何文本输入的情况下生成相符的图像。	模型仓链接
Stable Diffusion XL_controlnet	在Stable Diffusion XL的基础上，添加controlNet神经网络架构，可将控制信息添加到预训练的扩散模型中。	模型仓链接
Stable Diffusion XL_inpainting	在Stable Diffusion XL的基础上，进行图像重绘（inpainting），对图像进行修改、调整和优化，包括对图像的颜色、对比度、亮度、饱和度等进行调整，以及修复图像中的缺陷、删除不需要的元素、添加新的图像内容等操作。	模型仓链接
Stable Diffusion XL_prompt_weight	在Stable Diffusion XL的基础上，进行描述增强，通过提示权重（prompt weight）来精细调控模型对输入文本提示中不同概念的关注程度，从而影响最终生成图像的内容和焦点。	模型仓链接
Stable Diffusion XL_lighting	在Stable Diffusion XL的基础上，通过渐进式对抗蒸馏技术大幅提升了生成图像的速度和质量，在较少的推理步骤下生成高质量、多样性和图文匹配度的图像。	模型仓链接
Stable Diffusion 3	文本到图像的扩散模型，能够在给定任何文本输入的情况下生成相符的图像。	模型仓链接
Stable Video Diffusion	图像到视频的扩散模型，能够在给定任何图像输入的情况下生成相符的视频。	模型仓链接
Stable Audio Open v1.0	文本到语音的扩散模型，能够在给定任何文本输入的情况下生成相符的语音。	模型仓链接
FLUX.1-dev	文本到图像的扩散模型，能够在给定任何文本输入的情况下生成相符的图像。	模型仓链接
CogView3-Plus-3B	文本到图像的扩散模型，能够在给定任何文本输入的情况下生成相符的图像。	模型仓链接
HunyuanDit	文本到图像的扩散模型，能够在给定任何文本输入的情况下生成相符的图像。	模型仓链接
OpenSoraPlan v1.2	文本到视频的扩散模型，能够在给定任何文本输入的情况下生成相符的视频。	模型仓链接
OpenSoraPlan v1.3	文本到视频的扩散模型，能够在给定任何文本输入的情况下生成相符的视频。	模型仓链接
CogVideoX（包含2B、5B版本）	文本到视频的扩散模型，能够在给定任何文本输入的情况下生成相符的视频。	模型仓链接
HunyuanVideo	文本到视频的扩散模型，能够在给定任何文本输入的情况下生成相符的视频。	模型仓链接
Wan2.1	文本到视频、图像到视频的扩散模型，能够在给定任何文本、图像输入的情况下生成相符的视频。	模型仓链接

在使用MindIE SD进行推理业务时，模型相关文件（权重、配置、模型代码等）的安全性需由用户保证。
如用户在模型初始化的时候，用户修改模型配置的默认参数可能会影响模型接口，若权重文件过大或配置文件中参数过大，可能会导致由out of memory导致的报错信息，例如："RuntimeError: NPU out of memory. Tried to allocate xxx GiB."。
使用模型推理时，模型内部会进行推理计算，若用户输入的tensor shape过大，可能会出现由out of memory导致的报错信息，例如："RuntimeError: NPU out of memory. Tried to allocate xxx GiB."。