def __init__
函数功能
类初始化函数。
函数原型
def __init__(self, text_encoder: T5EncoderModel, tokenizer: AutoTokenizer, transformer: STDiT3, vae: VideoAutoencoder, scheduler: RFlowScheduler, num_frames: int = 32, image_size: Tuple[int, int] = (720, 1280), fps: int = 8, dtype: torch.dtype = torch.bfloat16):
参数说明
参数名 |
输入/输出 |
类型 |
说明 |
---|---|---|---|
text_encoder |
输入 |
T5EncoderModel |
接收token ID序列并生成对应的嵌入表示(embeddings)。 |
tokenizer |
输入 |
AutoTokenizer |
将输入文本转换为模型可以理解的token ID序列。 |
transformer |
输入 |
STDiT3 |
根据文本嵌入和潜在空间表示,生成视频帧。 |
vae |
输入 |
VideoAutoencoder |
用于对视频帧进行解码,将视频帧还原成视频。 |
scheduler |
输入 |
RFlowScheduler |
控制生成过程中的时间步更新和采样过程。 |
num_frames |
输入 |
int |
生成视频总帧数,默认值为32。 可选值为:32或128。 |
image_size |
输入 |
Tuple[int, int] |
分辨率:(垂直分辨率,水平分辨率),默认值为(720, 1280)。 可选值为:(512, 512)或(720, 128)。 |
fps |
输入 |
int |
帧数/每秒,默认值为8。 当前只支持8。 |
dtype |
输入 |
torch.dtype |
pipeline推理中间计算类型。 支持torch.bfloat16和torch.float16。 默认为torch.bfloat16。 |
返回值说明
无