应用场景
- 支持Client和Engine两种不同的推理模式:
- Client模式:MindIE Benchmark支持调用MindIE Client接口的方式,与Server-Endpoint进行通信并完成测试。
- 文本模式:此模式输入和接收的数据均为文本形式;该模式下支持全量文本生成及流式文本生成两种,调用MindIE Client的.generate()和.generate_stream()接口,对应MindIE Server的兼容Trition的文本推理接口和兼容Trition的流式推理接口。
MindIE Client与Server-Endpoint之间的通信会因网络波动影响最终统计的性能结果。
- 文本模式:此模式输入和接收的数据均为文本形式;该模式下支持全量文本生成及流式文本生成两种,调用MindIE Client的.generate()和.generate_stream()接口,对应MindIE Server的兼容Trition的文本推理接口和兼容Trition的流式推理接口。
- Engine模式:MindIE Benchmark支持通过直接调用北向接口提供的InferenceEngine Python API进行流式推理。
- 支持token id到token id异步推理,数据集转换为tokenid的具体转换方法请参考数据集使用。
- 支持文本到文本的异步推理。
- Client模式:MindIE Benchmark支持调用MindIE Client接口的方式,与Server-Endpoint进行通信并完成测试。
- 支持精度测试的数据集,包括CEval 5-shot、Gsm8k和MMLU 5-shot,Engine模式和Client模式都支持测试,请参见数据集使用获取数据集。
- 支持性能测试的数据集,包括Gsm8k、OASST1、CEval 5-shot、MMLU 5-shot、BoolQ和HumanEval,主要使用Gsm8k和OASST1两个数据集来测试模型的性能,请参见数据集使用获取数据集。

如果想模拟多用户并发场景,则使用Client模式,其他场景建议使用Engine模式。
父主题: MindIE Benchmark