def init

函数功能

类初始化函数。

函数原型

def __init__(self, text_encoder: T5EncoderModel, tokenizer: AutoTokenizer, transformer: STDiT3,
                 vae: VideoAutoencoder, scheduler: RFlowScheduler,
                 num_frames: int = 32, image_size: Tuple[int, int] = (720, 1280), fps: int = 8,
                 dtype: torch.dtype = torch.bfloat16):

参数说明

参数名	输入/输出	类型	说明
text_encoder	输入	T5EncoderModel	接收token ID序列并生成对应的嵌入表示（embeddings）。
tokenizer	输入	AutoTokenizer	将输入文本转换为模型可以理解的token ID序列。
transformer	输入	STDiT3	根据文本嵌入和潜在空间表示，生成视频帧。
vae	输入	VideoAutoencoder	用于对视频帧进行解码，将视频帧还原成视频。
scheduler	输入	RFlowScheduler	控制生成过程中的时间步更新和采样过程。
num_frames	输入	int	生成视频总帧数，默认值为32。可选值为：32或128。
image_size	输入	Tuple[int, int]	分辨率：(垂直分辨率，水平分辨率)，默认值为(720, 1280)。可选值为：(512, 512)或(720, 128)。
fps	输入	int	帧数/每秒，默认值为8。当前只支持8。
dtype	输入	torch.dtype	pipeline推理中间计算类型。支持torch.bfloat16和torch.float16。默认为torch.bfloat16。

返回值说明

无

父主题： class mindiesd.OpenSoraPipeline12