昇腾社区首页
中文
注册

Client后处理参数

  • “--TestType”取值为“client”“--TaskKind”取值为“stream_token”时,后处理参数详情请参考下表。

    参数

    类型

    说明

    repetition_penalty

    float

    重复惩罚用于减少在文本生成过程中出现重复片段的概率。它对之前已经生成的文本进行惩罚,使得模型更倾向于选择新的、不重复的内容。

    小于1.0表示对重复进行奖励;1.0表示不进行重复度惩罚;大于1.0表示对重复进行惩罚。

    seed

    uint64

    用于指定推理过程的随机种子,相同的seed值可以确保推理结果的可重现性,不同的seed值会提升推理结果的随机性。

    temperature

    float

    控制生成的随机性,较高的值会产生更多样化的输出。

    取值越大,结果的随机性越大。推荐取值不小于0.001,小于0.001可能会导致文本质量不佳。

    top_k

    int32

    控制模型生成过程中考虑的词汇范围,只从概率最高的k个候选词中选择。

    top_p

    float

    控制模型生成过程中考虑的词汇范围,使用累计概率选择候选词,直到累积概率超过给定的阈值。该参数也可以控制生成结果的多样性,它基于累积概率选择候选词,直到累积概率超过给定的阈值为止。

    batch_size

    int32

    推理请求batch_size。

    typical_p

    float

    解码输出概率分布指数。

    watermark

    bool

    是否带模型水印。

    • true:是
    • false:否

    priority

    int32

    设置请求优先级。取值范围[1, 5],值越低优先级越高,最高优先级为1。

    timeout

    int64

    设置等待时间,超时则断开请求。

    firstTokenCost

    int64

    本条请求首token时间。

    decodeTime

    list

    本条请求重计算之前Decode时间,仅在PD重计算场景使用。

  • “--TestType”取值为“client”“--TaskKind”取值不为“stream_token”,或“--TestType”取值为“triton_client”时,后处理参数详情请参考下表。

    参数

    类型

    说明

    repetition_penalty

    float

    重复惩罚用于减少在文本生成过程中出现重复片段的概率。它对之前已经生成的文本进行惩罚,使得模型更倾向于选择新的、不重复的内容。

    小于1.0表示对重复进行奖励;1.0表示不进行重复度惩罚;大于1.0表示对重复进行惩罚。建议取值范围 (0, 2.0),同时根据具体模型进行取值。

    seed

    uint64

    用于指定推理过程的随机种子,相同的seed值可以确保推理结果的可重现性,不同的seed值会提升推理结果的随机性。

    temperature

    float

    控制生成的随机性,较高的值会产生更多样化的输出。

    top_k

    int32

    控制模型生成过程中考虑的词汇范围,只从概率最高的k个候选词中选择。

    top_p

    float

    控制模型生成过程中考虑的词汇范围,使用累计概率选择候选词,直到累积概率超过给定的阈值。该参数也可以控制生成结果的多样性,它基于累积概率选择候选词,直到累积概率超过给定的阈值为止。

    typical_p

    float

    解码输出概率分布指数。

    watermark

    bool

    是否带模型水印。

    • true:是
    • false:否

    priority

    int64

    设置请求优先级。

    timeout

    int64

    设置等待时间,超时则断开请求。