def init

函数功能

类初始化函数。

函数原型

def __init__(self, text_encoder: T5EncoderModel, tokenizer: AutoTokenizer, transformer: STDiT3,
                 vae: VideoAutoencoder, scheduler: RFlowScheduler,
                 num_frames: int = 32, image_size: Tuple[int, int] = (720, 1280), fps: int = 8,
                 dtype: torch.dtype = torch.bfloat16):

参数说明

参数名	输入/输出	说明
text_encoder	输入	接收token ID序列并生成对应的嵌入表示（embeddings）。
tokenizer	输入	将输入文本转换为模型可以理解的token ID序列。
transformer	输入	根据文本嵌入和潜在空间表示，生成视频帧。
vae	输入	用于对视频帧进行解码，将视频帧还原成视频。
scheduler	输入	控制生成过程中的时间步更新和采样过程。
num_frames	输入	视频总帧数，默认值为32。
image_size	输入	分辨率：(垂直分辨率，水平分辨率)，默认值为(720, 1280)。
fps	输入	每秒多少帧，默认值为8。
dtype	输入	类型，当前支持torch.bfloat16和torch.float16。

返回值说明

无

父主题： class mindiesd.OpenSoraPipeline12