generate_train_data

对文本列表中的每个文本生成一定数量的问题，再经过多轮筛选及数据重写扩充等手段提高微调数据质量，最终输出用于微调embedding模型的数据集。

def generate_train_data(split_doc_list: list[str], data_process_config: DataProcessConfig, batch_size: int)

参数名	数据类型	是否必选	说明
split_doc_list	list[str]	必选	原始文本列表, 列表长度范围[1, 10001000], 字符串长度范围[1, 1281024*1024]
data_process_config	DataProcessConfig	必选	微调合成数据方法配置选项，详情请参考类功能中DataProcessConfig类描述
batch_size	int	可选	微调数据生成时并发条数，默认值为8，取值范围(0, 1024]

父主题： 微调合成数据自动生成方法