evaluate

评测接口，用户输入字典格式的数据，然后按照用户指定的评测指标集合进行评测。如果要显示ragas打印的日志，请设置环境变量DISABLE_RAGAS_LOGGING为0。

def evaluate(metrics, dataset, language, prompts_path, show_progress)

参数名	数据类型	可选/必选	说明
metrics	list[str]	必选	评估指标集合，评估指标见表1。集合中指标个数限制为(0, 14]；并且每个metrics的名字字符数范围在[1,50]；metrics参数不能重复。当指标为answer_similarity时，返回的得分中其key为semantic_similarity。
dataset	Dict[str, Any]	必选	用户评估数据集，字典长度范围[1, 4]，字典格式如下： user_input：List[str]格式，列表长度范围[0, 128]，字符范围[1, 1000000]。 response：List[str]格式，列表长度范围[0, 128]，字符范围[1, 1000000]。 retrieved_contexts：List[List[str]]格式，外层列表长度范围[1, 128]，内层列表长度范围[0, 128]，字符范围[1, 1000000]。 reference：List[str]格式，列表长度范围[0, 128]，字符范围[1, 1000000]。其中user_input，response和reference的列表长度以及retrieved_contexts的外层列表长度要保持一致。
language	str	可选	本地化语言参数，如果指定将按照指定的语言进行评测。默认值为“None”。如果不设置值，提示词将采用ragas自带的默认提示词。支持的取值为"chinese"和"english"。
prompts_path	str	可选	本地化提示词参数，如果指定将结合language在prompt_dir目录寻找对应的提示词文件，如果找到则可以加速评估过程。默认值为“None”。字符串长度限制[1, 255]。
show_progress	bool	可选	在评估期间是否显示进度条，默认不显示。

数据类型	说明
Optional[Dict[str, List[float]]]	函数返回一个字典，具体如下：键（Keys）：指标名称（字符串），例如 "answer_correctness"、"context_precision" 等。值（Values）：每个键对应一个浮点数列表，列表中的每个元素代表该指标在数据集各条样本上的评估得分。如果评估过程中发生异常（如报错），函数会返回 None。

数据类型

说明

Optional[Dict[str, List[float]]]

函数返回一个字典，具体如下：

父主题： RAGEvaluator