昇腾社区首页
中文
注册

evaluate

功能描述

评测接口,用户输入字典格式的数据,然后按照用户指定的评测指标集合进行评测。如果要显示ragas打印的日志,请设置环境变量DISABLE_RAGAS_LOGGING为0。

函数原型

def evaluate(metrics, dataset, language, prompts_path, show_progress)

参数说明

参数名

数据类型

可选/必选

说明

metrics

list[str]

必选

评估指标集合,评估指标见表1

集合中指标个数限制为(0, 14];并且每个metrics的名字字符数范围在[1,50];metrics参数不能重复。当指标为answer_similarity时,返回的得分中其key为semantic_similarity。

dataset

Dict[str, Any]

必选

用户评估数据集,字典长度范围[1, 4],字典格式如下:

  • user_input:List[str]格式,列表长度范围[0, 128],字符范围[1, 1000000]。
  • response:List[str]格式,列表长度范围[0, 128],字符范围[1, 1000000]。
  • retrieved_contexts:List[List[str]]格式,外层列表长度范围[1, 128],内层列表长度范围[0, 128],字符范围[1, 1000000]。
  • reference:List[str]格式,列表长度范围[0, 128],字符范围[1, 1000000]。

其中user_input,response和reference的列表长度以及retrieved_contexts的外层列表长度要保持一致。

language

str

可选

本地化语言参数,如果指定将按照指定的语言进行评测。

默认值为“None”如果不设置值,提示词将采用ragas自带的默认提示词。

支持的取值为"chinese"和"english"。

prompts_path

str

可选

本地化提示词参数,如果指定将结合language在prompt_dir目录寻找对应的提示词文件,如果找到则可以加速评估过程。

默认值为“None”

字符串长度限制[1, 255]。

show_progress

bool

可选

在评估期间是否显示进度条,默认不显示。

返回值说明

数据类型

说明

Optional[Dict[str, List[float]]]

函数返回一个字典,具体如下:

  • 键(Keys): 指标名称(字符串),例如 "answer_correctness"、"context_precision" 等。
  • 值(Values): 每个键对应一个浮点数列表,列表中的每个元素代表该指标在数据集各条样本上的评估得分。
  • 如果评估过程中发生异常(如报错),函数会返回 None。