使用自动调整配比的算法,需要先配置Controller配置文件中的“default_p_rate”和“default_d_rate”两个参数,把这两个参数的值设置为0时,将会触发最佳PD比例计算,自动计算出最佳PD比例。Controller配置文件中其他关键配置参数如表1所示。
参数名称 |
说明 |
配置值 |
---|---|---|
digs_request_summary_input_length |
推理请求的平均输入长度。 取值范围:[0,65535] |
默认值:3000 |
digs_request_summary_output_length |
推理请求的平均输出长度。 取值范围:[0,65535] |
默认值:200 |
digs_model_config_path |
身份决策算法需要使用的模型参数信息。 |
/usr/local/Ascend/mindie/latest/mindie-service/conf/model_config/llama2-70B.json |
digs_machine_config_path |
身份决策算法需要使用的机器参数信息。 |
/usr/local/Ascend/mindie/latest/mindie-service/conf/machine_config/ascend910xx.json |
digs_prefill_slo |
首token时延约束。 取值范围:[0,65535] |
默认值:1000 |
digs_decode_slo |
Decode时延约束。 取值范围:[0,65535] |
默认值:50 |
model_type |
模型名称。 |
默认值:llama-70B |
transfer_type |
传输类型。 |
默认值:D2DTransfer |
digs_pp/usr/local/Ascend/llm_model/ |
任务并行数。 取值范围:[0,65535] |
默认值:1 |