昇腾社区首页
中文
注册
开发者
下载

build_graph

功能

调用此函数创建文本节点索引以及生成对应文本的知识图谱。

函数原型

def build_graph(lang, pad_token, conceptualize, **kwargs)

输入参数说明

参数名

数据类型

是否必选

说明

lang

Lang

语料所用的语言,默认取值为Lang.EN,即英文语料。

pad_token

str

大语言模型使用填充字符,默认为空字符,其取值范围为[0, 255]。

conceptualize

bool

是否进行对节点概念化,默认为False。

kwargs

dict

扩展参数列表:

  • max_workers:构建知识图谱的线程数。默认值为min(32, (cpu_count() or 1)+4),取值范围为[1, 512]。
  • top_k:在对图节点概念进行聚类时,向量检索返回的最相似概念数量。默认值为5,取值范围为[1, 100]。
  • threshold:向量相似性阈值。低于此值的相似性结果将被过滤。默认值为0.3,取值范围为[0.0,1.0]。
  • triple_instructions: 用于指导大型语言模型(LLM)从文档中抽取关系的指令,字典类型。默认值为None,此时将根据语言使用默认值(中文为TRIPLE_INSTRUCTIONS_CN,英文为TRIPLE_INSTRUCTIONS_EN)。用户可以通过提供一个字典来覆盖默认的抽取指令。该字典必须包含以下键:
    • entity_relation: 对应的值定义实体关系抽取的指令, 字符串类型,长度范围为[1, 1048576]。
    • event_entity:对应的值定义事件实体抽取的指令, 字符串类型,长度范围为[1, 1048576]。
    • event_relation:对应的值定义事件关系抽取的指令, 字符串类型,长度范围为[1, 1048576]。

    每个键对应的值定义了特定提取任务的指令。

  • conceptualizer_prompts: 用于指导LLM进行概念化的提示,字典类型。默认值为None。用户可以通过提供一个字典来覆盖默认的概念化提示。该字典必须包含以下键:
    • entity: 对应的值定义对图中实体进行概念化的提示, 字符串类型,长度范围为[1, 1048576]。当conceptualizer_prompts为None时将根据语言使用默认值(中文为ENTITY_PROMPT_CN, 英文为ENTITY_PROMPT_EN)。
    • event: 定义对图中事件进行概念化的提示, 字符串类型,长度范围为[1, 1048576]。当conceptualizer_prompts为None时将根据语言使用默认值(中文为EVENT_PROMPT_CN, 英文为EVENT_PROMPT_EN)。
    • relation: 定义对图中关系进行概念化的提示, 字符串类型,长度范围为[1, 1048576]。当conceptualizer_prompts为None时将根据语言使用默认值(中文为RELATION_PROMPT_CN, 英文为RELATION_PROMPT_EN)。

返回值说明