昇腾社区首页
中文
注册

generate_origin_document

功能描述

对用户提供的原始文本集进行解析并切分处理,用于后续的微调合成数据生成。

函数原型

def generate_origin_document(document_path: str, loader_mng: LoaderMng, filter_func: Callable[[List[str]], List[str]])

输入参数说明

参数名

数据类型

是否必选

说明

document_path

str

必选

用户提供的原始文档集所在目录地址,目录长度取值范围为[1,1024]。路径不能包含软链接且不允许存在".."

loader_mng

LoaderMng

必选

文件加载解析器,详情请参考LoaderMng类

filter_func

Callable

可选

对解析切分后的文档片段进行数据清洗回调函数,入参和出参都为List[str],默认值为None

返回值说明

数据类型

说明

list[str]

原始文本文档切分列表