昇腾社区首页
中文
注册

功能介绍

MindIE SD模型支持列表如表1所示,支持视图生成的主要功能场景如下:

  • 支持OpenSora v1.2模型,视频生成典型多模态生成场景。
  • 支持自定义高性能算子接入,支持扩散转换模型缓存(Diffusion Transformer Cache, DiT-Cache)、动态序列并行(Dynamic Sequence Parallel, DSP)等性能算法优化,算法使用方法可通过输入参数、或config文件进行配置
表1 模型列表

模型

功能

说明

OpenSora v1.2

文本到视频的扩散模型,能够在给定任何文本输入的情况下生成相符的视频。

MindIE SD软件栈支持的视图生成场景,该模型目前只能从ModelZoo-PyTorch获取。

Stable Diffusion(包含1.5、2.1版本)

文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。

MindIE SD软件栈暂未支持,当前版本仅提供模型参考样例,请单击链接获取。在各个模型README中给出了推理指导,包含了模型概述、推理环境准备、快速上手、模型推理性能精度,用户可根据推理流程进行图像、视频和语音生成。

Stable Diffusion XL

文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。

Stable Diffusion XL_controlnet

在Stable Diffusion XL的基础上,添加controlNet神经网络架构,可将控制信息添加到预训练的扩散模型中。

Stable Diffusion XL_inpainting

在Stable Diffusion XL的基础上,进行图像重绘(inpainting),对图像进行修改、调整和优化,包括对图像的颜色、对比度、亮度、饱和度等进行调整,以及修复图像中的缺陷、删除不需要的元素、添加新的图像内容等操作。

Stable Diffusion XL_prompt_weight

在Stable Diffusion XL的基础上,进行描述增强,通过提示权重(prompt weight)来精细调控模型对输入文本提示中不同概念的关注程度,从而影响最终生成图像的内容和焦点。

Stable Diffusion 3

文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。

Stable Video Diffusion

图像到视频的扩散模型,能够在给定任何图像输入的情况下生成相符的视频。

Stable Audio Open v1.0

文本到语音的扩散模型,能够在给定任何文本输入的情况下生成相符的语音。

OpenSora v1.0

文本到视频的扩散模型,能够在给定任何文本输入的情况下生成相符的视频。

DiT

DiT(Diffusion Transformer)是一种基于扩散模型(Diffusion Models)和Transformer架构的新型扩散模型,具有强大的生成能力与序列数据处理优势。

IP-Adapter

图像提示适配器(Image Prompt Adapter, IP-Adapter)通过引入轻量级适配器模块,将文本提示和图像提示整合到预训练的文生图模型中,协同实现多模态图像生成。

sd-webui

基于Gradio库的WebUi界面,支持设置输入和参数用于SD模型的文生图、图生图等功能。

cogview3

文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。

hunyuan_dit

文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。

  • 在使用MindIE SD进行推理业务时,模型相关文件(权重、配置、模型代码等)的安全性需由用户保证。
  • 如用户在模型初始化的时候,用户修改模型配置的默认参数可能会影响模型接口,若权重文件过大或配置文件中参数过大,可能会导致由out of memory导致的报错信息,例如:"RuntimeError: NPU out of memory. Tried to allocate xxx GiB."。
  • 使用模型推理时,模型内部会进行推理计算,若用户输入的tensor shape过大,可能会出现由out of memory导致的报错信息,例如:"RuntimeError: NPU out of memory. Tried to allocate xxx GiB."。