总体说明
Client推理模式在运行前,需要启动Server的Endpoint服务。
使用以下命令启动Server Endpoint服务。
1 2 | cd $MIES_INSTALL_PATH/ ./bin/mindieservice_daemon |
打印如下内容则说明启动成功。
1 | Daemon start success! |
Client推理模式运行时,会调用MindIE Client相应的接口向Server Endpoint发送推理请求并进行打点统计。
Client推理模式支持传递采样参数和惩罚系数,采样参数和惩罚系数均存于--SamplingParams参数中。--DoSampling通过Benchmark透传,会在MindIE LLM侧控制是否使--SamplingParams中的采样参数生效。
Client推理模式下,并发数为影响性能(吞吐量及平均Decode时间)的关键指标,根据用户的不同需求,初步选取标准如下:
- 提高系统吞吐量(QPS):适当提高并发数。
- 提高系统的平均非首token时间:随着并发数增大,非首token的Decode时间会增加,卡非首token时间时可以设定一个较小的并发数,baichuan2-13b并发数参考设定为64或更小的数值(卡50ms平均Decode时间),DeepSeek-R1-671B及类似大小模型的参考并发数为16/32。
父主题: Client推理模式