吞吐率指标
吞吐率(Throughput)和时延(Latency)是当前较为通用的衡量大模型推理性能的指标。网络模型的吞吐率定义为网络模型在单位时间内(如1s内)可以推理的最大样本数目。
对于大模型推理,需要额外考虑两点,即大模型首次推理的耗时更长,且推理时延和输入/输出的文字长度相关。多Batch推理和并行推理场景下,大模型推理的吞吐率有差异。因此,测试方案需要根据以下维度进行考虑。
- 输入/输出文字长度:取决于模型本身能力和实际需求,一般覆盖25 ~ 210,对于一些支持长文本的模型,需要支持到8k甚至更高。
- Batch Size:在固定芯片或卡规模情况下,Batch Size测试上限取决于模型参数量或计算量以及本身卡的显存,默认Batch Size覆盖到1 ~ 32。
最终模型吞吐率计算公式如下:
- BS为测试数据的Batch Size数目。
- world_size为并行推理的进程数。
- Latency为不同输入/输出文字长度组合的推理时延。
父主题: 大模型评估指标