昇腾社区首页
中文
注册

def __init__

函数功能

类初始化函数。

函数原型

def __init__(self, text_encoder: T5EncoderModel, tokenizer: AutoTokenizer, transformer: STDiT3,
                 vae: VideoAutoencoder, scheduler: RFlowScheduler,
                 num_frames: int = 32, image_size: Tuple[int, int] = (720, 1280), fps: int = 8,
                 dtype: torch.dtype = torch.bfloat16):

参数说明

参数名

输入/输出

说明

text_encoder

输入

接收token ID序列并生成对应的嵌入表示(embeddings)。

tokenizer

输入

将输入文本转换为模型可以理解的token ID序列。

transformer

输入

根据文本嵌入和潜在空间表示,生成视频帧。

vae

输入

用于对视频帧进行解码,将视频帧还原成视频。

scheduler

输入

控制生成过程中的时间步更新和采样过程。

num_frames

输入

视频总帧数,默认值为32。

image_size

输入

分辨率:(垂直分辨率,水平分辨率),默认值为(720, 1280)。

fps

输入

每秒多少帧,默认值为8。

dtype

输入

类型,当前支持torch.bfloat16和torch.float16。

返回值说明