def __init__
函数功能
类初始化函数。
函数原型
def __init__(self, text_encoder: T5EncoderModel, tokenizer: AutoTokenizer, transformer: STDiT3, vae: VideoAutoencoder, scheduler: RFlowScheduler, num_frames: int = 32, image_size: Tuple[int, int] = (720, 1280), fps: int = 8, dtype: torch.dtype = torch.bfloat16):
参数说明
参数名 |
输入/输出 |
说明 |
---|---|---|
text_encoder |
输入 |
接收token ID序列并生成对应的嵌入表示(embeddings)。 |
tokenizer |
输入 |
将输入文本转换为模型可以理解的token ID序列。 |
transformer |
输入 |
根据文本嵌入和潜在空间表示,生成视频帧。 |
vae |
输入 |
用于对视频帧进行解码,将视频帧还原成视频。 |
scheduler |
输入 |
控制生成过程中的时间步更新和采样过程。 |
num_frames |
输入 |
视频总帧数,默认值为32。 |
image_size |
输入 |
分辨率:(垂直分辨率,水平分辨率),默认值为(720, 1280)。 |
fps |
输入 |
每秒多少帧,默认值为8。 |
dtype |
输入 |
类型,当前支持torch.bfloat16和torch.float16。 |
返回值说明
无