昇腾社区首页
中文
注册

generate_train_data

功能描述

对文本列表中的每个文本生成一定数量的问题,再经过多轮筛选及数据重写扩充等手段提高微调数据质量,最终输出用于微调embedding模型的数据集。

函数原型

def generate_train_data(split_doc_list: list[str], data_process_config: DataProcessConfig, batch_size: int)

输入参数说明

参数名

数据类型

是否必选

说明

split_doc_list

list[str]

必选

原始文本列表, 列表长度范围[1, 1000*1000], 字符串长度范围[1, 128*1024*1024]

data_process_config

DataProcessConfig

必选

微调合成数据方法配置选项,详情请参考类功能中DataProcessConfig类描述

batch_size

int

可选

微调数据生成时并发条数,默认值为8,取值范围(0, 1024]