generate_origin_document
功能描述
对用户提供的原始文本集进行解析并切分处理,用于后续的微调合成数据生成。
函数原型
def generate_origin_document(document_path: str, loader_mng: LoaderMng, filter_func: Callable[[List[str]], List[str]])
输入参数说明
参数名 |
数据类型 |
是否必选 |
说明 |
---|---|---|---|
document_path |
str |
必选 |
用户提供的原始文档集所在目录地址,目录长度取值范围为[1,1024]。路径不能包含软链接且不允许存在".." |
loader_mng |
LoaderMng |
必选 |
文件加载解析器,详情请参考LoaderMng类 |
filter_func |
Callable |
可选 |
对解析切分后的文档片段进行数据清洗回调函数,入参和出参都为List[str],默认值为None |
返回值说明
数据类型 |
说明 |
---|---|
list[str] |
原始文本文档切分列表 |
父主题: 评估数据辅助生成方法