功能介绍 MindIE SD模型支持列表如表1所示,支持视图生成的主要功能场景如下: 支持OpenSora v1.2模型,视频生成典型多模态生成场景。支持自定义高性能算子接入,支持扩散转换模型缓存(Diffusion Transformer Cache, DiT-Cache)、动态序列并行(Dynamic Sequence Parallel, DSP)等性能算法优化,参数使用方法见接口说明。 表1 模型列表模型 功能 说明 OpenSora v1.2 文本到视频的扩散模型,能够在给定任何文本输入的情况下生成相符的视频。 MindIE SD软件栈支持的视图生成场景。 Stable Diffusion(包含1.5、2.1版本) 文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。 MindIE SD软件栈暂未支持,当前版本仅提供模型参考样例,请单击链接获取。在各个模型README中给出了推理指导,包含了模型概述、推理环境准备、快速上手、模型推理性能&精度,用户可根据推理流程进行图像、视频和语音生成。 Stable Diffusion XL 文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。 Stable Diffusion 3 文本到图像的扩散模型,能够在给定任何文本输入的情况下生成相符的图像。 Stable Video Diffusion 图像到视频的扩散模型,能够在给定任何图像输入的情况下生成相符的视频。 Stable Audio Open v1.0 文本到语音的扩散模型,能够在给定任何文本输入的情况下生成相符的语音。 OpenSora v1.0 文本到视频的扩散模型,能够在给定任何文本输入的情况下生成相符的视频。