昇腾社区首页
中文
注册

def __init__

函数功能

类初始化函数。

函数原型

def __init__(self, text_encoder: T5EncoderModel, tokenizer: AutoTokenizer, transformer: STDiT3,
                 vae: VideoAutoencoder, scheduler: RFlowScheduler,
                 num_frames: int = 32, image_size: Tuple[int, int] = (720, 1280), fps: int = 8,
                 dtype: torch.dtype = torch.bfloat16):

参数说明

参数名

输入/输出

类型

说明

text_encoder

输入

T5EncoderModel

接收token ID序列并生成对应的嵌入表示(embeddings)。

tokenizer

输入

AutoTokenizer

将输入文本转换为模型可以理解的token ID序列。

transformer

输入

STDiT3

根据文本嵌入和潜在空间表示,生成视频帧。

vae

输入

VideoAutoencoder

用于对视频帧进行解码,将视频帧还原成视频。

scheduler

输入

RFlowScheduler

控制生成过程中的时间步更新和采样过程。

num_frames

输入

int

生成视频总帧数,默认值为32。

可选值为:32或128。

image_size

输入

Tuple[int, int]

分辨率:(垂直分辨率,水平分辨率),默认值为(720, 1280)。

可选值为:(512, 512)或(720, 128)。

fps

输入

int

帧数/每秒,默认值为8。

当前只支持8。

dtype

输入

torch.dtype

pipeline推理中间计算类型。

支持torch.bfloat16和torch.float16。

默认为torch.bfloat16。

返回值说明