功能介绍
MindIE SD模型支持列表如表1所示,支持视图生成的主要功能场景如下(模型更多特性详情请参见模型支持列表中的“多模态生成模型列表”页签):
- 支持表1所示模型,图像、视频和语音多模态生成场景,根据各个模型的README进行推理适配与加速。README包括:模型概述、推理环境准备、快速上手、性能和精度的数据参考。
- 支持自定义高性能算子接入,支持扩散转换模型缓存(Diffusion Transformer Cache, DiT-Cache)、动态序列并行(Dynamic Sequence Parallel, DSP)等性能算法优化,算法使用方法可通过输入参数、或config文件进行配置。
模型 |
功能 |
模型链接 |
---|---|---|
OpenSora v1.2 |
文本到视频的扩散模型,能够在给定任何文本输入的情况下生成相符的视频。 |
|
DiT |
DiT(Diffusion Transformer)是一种基于扩散模型(Diffusion Models)和Transformer架构的新型扩散模型,具有强大的生成能力与序列数据处理优势。 |
|
sd-webui |
基于Gradio库的WebUi界面,支持设置输入和参数用于SD模型的文生图、图生图等功能。 |
|
Stable Diffusion 1.5 |
文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。 |
|
Stable Diffusion2.1 |
文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。 |
|
Stable Diffusion XL |
文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。 |
|
Stable Diffusion XL_controlnet |
在Stable Diffusion XL的基础上,添加controlNet神经网络架构,可将控制信息添加到预训练的扩散模型中。 |
|
Stable Diffusion XL_inpainting |
在Stable Diffusion XL的基础上,进行图像重绘(inpainting),对图像进行修改、调整和优化,包括对图像的颜色、对比度、亮度、饱和度等进行调整,以及修复图像中的缺陷、删除不需要的元素、添加新的图像内容等操作。 |
|
Stable Diffusion XL_prompt_weight |
在Stable Diffusion XL的基础上,进行描述增强,通过提示权重(prompt weight)来精细调控模型对输入文本提示中不同概念的关注程度,从而影响最终生成图像的内容和焦点。 |
|
Stable Diffusion XL_lighting |
在Stable Diffusion XL的基础上,通过渐进式对抗蒸馏技术大幅提升了生成图像的速度和质量,在较少的推理步骤下生成高质量、多样性和图文匹配度的图像。 |
|
Stable Diffusion 3 |
文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。 |
|
Stable Video Diffusion |
图像到视频的扩散模型,能够在给定任何图像输入的情况下生成相符的视频。 |
|
Stable Audio Open v1.0 |
文本到语音的扩散模型,能够在给定任何文本输入的情况下生成相符的语音。 |
|
FLUX.1-dev |
文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。 |
|
CogView3-Plus-3B |
文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。 |
|
HunyuanDit |
文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。 |
|
OpenSoraPlan v1.2 |
文本到视频的扩散模型,能够在给定任何文本输入的情况下生成相符的视频。 |
|
OpenSoraPlan v1.3 |
文本到视频的扩散模型,能够在给定任何文本输入的情况下生成相符的视频。 |
|
CogVideoX(包含2B、5B版本) |
文本到视频的扩散模型,能够在给定任何文本输入的情况下生成相符的视频。 |
|
HunyuanVideo |
文本到视频的扩散模型,能够在给定任何文本输入的情况下生成相符的视频。 |
|
Wan2.1 |
文本到视频、图像到视频的扩散模型,能够在给定任何文本、图像输入的情况下生成相符的视频。 |

- 在使用MindIE SD进行推理业务时,模型相关文件(权重、配置、模型代码等)的安全性需由用户保证。
- 如用户在模型初始化的时候,用户修改模型配置的默认参数可能会影响模型接口,若权重文件过大或配置文件中参数过大,可能会导致由out of memory导致的报错信息,例如:"RuntimeError: NPU out of memory. Tried to allocate xxx GiB."。
- 使用模型推理时,模型内部会进行推理计算,若用户输入的tensor shape过大,可能会出现由out of memory导致的报错信息,例如:"RuntimeError: NPU out of memory. Tried to allocate xxx GiB."。