精度指标 大语言模型通常采用在标准的benchmark数据集上的测试结果来作为精度指标,以下为常用数据集: C-Eval:C-Eval数据集是一个中文大模型的知识评估基准,由上海交通大学、清华大学和爱丁堡大学共同设计完成,旨在评估基于中文语境的基础模型的高级知识和推理能力。该数据集覆盖了人文、社科、理工、其他专业四个大方向,52个学科和四个难度的级别,从中学到大学研究生以及职业考试,一共13948道题目。 MMLU:MMLU数据集是一个庞大的多任务数据集,由各种学科的多项选择题组成。该数据集包含了57个学科,知识面覆盖了初等数学、美国历史、计算机科学、法律等,难度覆盖了高中水平到专家水平,是当前主流的英文LLM评测数据集。 父主题: 大模型评估指标