generate_train_data
功能描述
对文本列表中的每个文本生成一定数量的问题,再经过多轮筛选及数据重写扩充等手段提高微调数据质量,最终输出用于微调embedding模型的数据集。
函数原型
def generate_train_data(split_doc_list: list[str], data_process_config: DataProcessConfig, batch_size: int)
输入参数说明
参数名 |
数据类型 |
是否必选 |
说明 |
---|---|---|---|
split_doc_list |
list[str] |
必选 |
原始文本列表, 列表长度范围[1, 1000*1000], 字符串长度范围[1, 128*1024*1024] |
data_process_config |
DataProcessConfig |
必选 |
微调合成数据方法配置选项,详情请参考类功能中DataProcessConfig类描述 |
batch_size |
int |
可选 |
微调数据生成时并发条数,默认值为8,取值范围(0, 1024] |
父主题: 微调合成数据自动生成方法