昇腾社区首页
中文
注册

register_splitter

功能描述

注册文档切分函数,最大支持加载1000个splitter。

函数原型

def register_splitter(splitter_class, file_types, splitter_param)

参数说明

参数名

数据类型

可选/必选

说明

splitter_class

Type

必选

文档切分函数,只能为继承自langchain的TextSplitter的子类。

file_types

List[str]

必选

文件扩展名列表。支持文档类型数取值范围[1, 32],文档扩展名长度取值范围为[1,32]。不支持“.jpg”和“.png”格式的文件。参数配置如[".txt", ".docx"]

splitter_params

Dict[str, Any]

可选

文档切分函数所需要传入的参数,默认为“None”,参数配置中的字符串长度不能超过1024,字典长度不能超过1024,字典嵌套不能超过2层。

以langchain为例,当使用的splitter_class为“RecursiveCharacterTextSplitter”时,splitter_params可以传入的参数为{"chunk_size": 4000, "chunk_overlap": 20, "keep_separator": False},其中chunk_size定义切割块大小,chunk_overlap定义切割块之间重叠部分大小,keep_separator表示切分符是否保留,默认的切分符是["\n\n", "\n", " ", ""]。