当“--TestType”取值为“client”且 “--TaskKind“ 取值为 "stream_token" 时，后处理参数详情请参考下表。

参数	类型	说明
repetition_penalty	Float	重复惩罚用于减少在文本生成过程中出现重复片段的概率。它对之前已经生成的文本进行惩罚，使得模型更倾向于选择新的、不重复的内容。小于1.0表示对重复进行奖励；1.0表示不进行重复度惩罚；大于1.0表示对重复进行惩罚。
seed	Int64	用于指定推理过程的随机种子，相同的seed值可以确保推理结果的可重现性，不同的seed值会提升推理结果的随机性。
temperature	Float	控制生成的随机性，较高的值会产生更多样化的输出。取值越大，结果的随机性越大。推荐取值不小于0.001，小于0.001可能会导致文本质量不佳。
top_k	Int32	控制模型生成过程中考虑的词汇范围，只从概率最高的k个候选词中选择。
top_p	Float	控制模型生成过程中考虑的词汇范围，使用累计概率选择候选词，直到累计概率超过给定的阈值。该参数也可以控制生成结果的多样性，它基于累积概率选择候选词，直到累计概率超过给定的阈值为止。
batch_size	Int32	推理请求batch_size。
typical_p	Float	解码输出概率分布指数。
watermark	Bool (true, false)	是否带模型水印。 true：是 false：否
priority	Int32	设置请求优先级。取值范围[1, 5]，值越低优先级越高，最高优先级为1。
timeout	Int64	设置等待时间，超时则断开请求。
firstTokenCost	Int64	本条请求首token时间。
decodeTime	List	本条请求重计算之前Decode时间，仅在PD重计算场景使用。

当“--TestType”取值为“client”且 --TaskKind取值不为 "stream_token"，或 --TestType取值为 "triton_client" 时，后处理参数详情请参考下表。

参数	类型	说明
repetition_penalty	Float	重复惩罚用于减少在文本生成过程中出现重复片段的概率。它对之前已经生成的文本进行惩罚，使得模型更倾向于选择新的、不重复的内容。小于1.0表示对重复进行奖励；1.0表示不进行重复度惩罚；大于1.0表示对重复进行惩罚。建议取值范围 (0, 2.0)，同时根据具体模型进行取值。
seed	Int64	用于指定推理过程的随机种子，相同的seed值可以确保推理结果的可重现性，不同的seed值会提升推理结果的随机性。
temperature	Float	控制生成的随机性，较高的值会产生更多样化的输出。
top_k	Int32	控制模型生成过程中考虑的词汇范围，只从概率最高的k个候选词中选择。
top_p	Float	控制模型生成过程中考虑的词汇范围，使用累计概率选择候选词，直到累计概率超过给定的阈值。该参数也可以控制生成结果的多样性，它基于累积概率选择候选词，直到累计概率超过给定的阈值为止。
typical_p	Float	解码输出概率分布指数。
watermark	Bool (true, false)	是否带模型水印。 true：是 false：否
priority	int64	设置请求优先级。
timeout	int64	设置等待时间，超时则断开请求。

Client后处理参数