昇腾社区首页
中文
注册

功能介绍

MindIE SD模型支持列表如表1所示,支持视图生成的主要功能场景如下(模型更多特性详情请参见模型支持列表中的“多模态生成模型列表”页签):

  • 支持表1所示模型,图像、视频和语音多模态生成场景,根据各个模型的README进行推理适配与加速。README包括:模型概述、推理环境准备、快速上手、性能和精度的数据参考。
  • 支持自定义高性能算子接入,支持扩散转换模型缓存(Diffusion Transformer Cache, DiT-Cache)、动态序列并行(Dynamic Sequence Parallel, DSP)等性能算法优化,算法使用方法可通过输入参数、或config文件进行配置。
表1 模型列表

模型

功能

模型链接

OpenSora v1.2

文本到视频的扩散模型,能够在给定任何文本输入的情况下生成相符的视频。

模型仓链接

DiT

DiT(Diffusion Transformer)是一种基于扩散模型(Diffusion Models)和Transformer架构的新型扩散模型,具有强大的生成能力与序列数据处理优势。

模型仓链接

sd-webui

基于Gradio库的WebUi界面,支持设置输入和参数用于SD模型的文生图、图生图等功能。

模型仓链接

Stable Diffusion 1.5

文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。

模型仓链接

Stable Diffusion2.1

文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。

模型仓链接

Stable Diffusion XL

文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。

模型仓链接

Stable Diffusion XL_controlnet

在Stable Diffusion XL的基础上,添加controlNet神经网络架构,可将控制信息添加到预训练的扩散模型中。

模型仓链接

Stable Diffusion XL_inpainting

在Stable Diffusion XL的基础上,进行图像重绘(inpainting),对图像进行修改、调整和优化,包括对图像的颜色、对比度、亮度、饱和度等进行调整,以及修复图像中的缺陷、删除不需要的元素、添加新的图像内容等操作。

模型仓链接

Stable Diffusion XL_prompt_weight

在Stable Diffusion XL的基础上,进行描述增强,通过提示权重(prompt weight)来精细调控模型对输入文本提示中不同概念的关注程度,从而影响最终生成图像的内容和焦点。

模型仓链接

Stable Diffusion XL_lighting

在Stable Diffusion XL的基础上,通过渐进式对抗蒸馏技术大幅提升了生成图像的速度和质量,在较少的推理步骤下生成高质量、多样性和图文匹配度的图像。

模型仓链接

Stable Diffusion 3

文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。

模型仓链接

Stable Video Diffusion

图像到视频的扩散模型,能够在给定任何图像输入的情况下生成相符的视频。

模型仓链接

Stable Audio Open v1.0

文本到语音的扩散模型,能够在给定任何文本输入的情况下生成相符的语音。

模型仓链接

FLUX.1-dev

文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。

模型仓链接

CogView3-Plus-3B

文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。

模型仓链接

HunyuanDit

文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。

模型仓链接

OpenSoraPlan v1.2

文本到视频的扩散模型,能够在给定任何文本输入的情况下生成相符的视频。

模型仓链接

OpenSoraPlan v1.3

文本到视频的扩散模型,能够在给定任何文本输入的情况下生成相符的视频。

模型仓链接

CogVideoX(包含2B、5B版本)

文本到视频的扩散模型,能够在给定任何文本输入的情况下生成相符的视频。

模型仓链接

HunyuanVideo

文本到视频的扩散模型,能够在给定任何文本输入的情况下生成相符的视频。

模型仓链接

Wan2.1

文本到视频、图像到视频的扩散模型,能够在给定任何文本、图像输入的情况下生成相符的视频。

模型仓链接

  • 在使用MindIE SD进行推理业务时,模型相关文件(权重、配置、模型代码等)的安全性需由用户保证。
  • 如用户在模型初始化的时候,用户修改模型配置的默认参数可能会影响模型接口,若权重文件过大或配置文件中参数过大,可能会导致由out of memory导致的报错信息,例如:"RuntimeError: NPU out of memory. Tried to allocate xxx GiB."。
  • 使用模型推理时,模型内部会进行推理计算,若用户输入的tensor shape过大,可能会出现由out of memory导致的报错信息,例如:"RuntimeError: NPU out of memory. Tried to allocate xxx GiB."。