部分大模型输出结果时会附带其思考过程,本特性旨在控制模型思考深度,当思考内容超过设定的thinking_budget时,系统会使用提示词对思考过程进行截断,促使模型提前结束思考。该特性适用于在响应速度与答案质量之间灵活权衡的场景。
- Atlas 800I A2 推理服务器、Atlas 800I A3 超节点服务器和Atlas 300I Duo 推理卡支持此特性。
- 当前仅Qwen3-32B、Qwen3-235B-A22B和Qwen3-30B-A3B模型支持此特性。
- 开启thinking_budget需在请求中传入如下字段:"chat_template_kwargs": {"thinking_budget": <uint32_t>}, 取值范围为[1, MAX_UINT32_T]。
- 当前仅支持OpenAI推理接口。
- 该特性暂不支持与use_beam_search等多序列推理相关的后处理参数同时开启。
表 1 思考预算特性补充参数:ModelConfig中的models参数 [object Object][object Object]