使用样例
限制与约束
- Atlas 800I A2 推理服务器和Atlas 800I A3 超节点支持此特性。
- 该特性仅能在使能异步调度时生效。
- 该特性不支持和Sequence Parallel(SP)、Context Parallel(CP)同时开启。
- 该特性暂不支持n、best_of、use_beam_search等与多序列推理相关的后处理参数。
- 该特性不能和并行解码、SplitFuse同时使用。
- 该特性暂不支持“tp>1”的使用场景。
操作步骤
- 设置环境变量,打开异步调度功能。该环境变量详细说明请参见环境变量。
export MINDIE_ASYNC_SCHEDULING_ENABLE=1
PD分离部署场景下,仅在D节点通过该环境变量开启异步调度。
- 打开MindIE Motor的config.json文件。
cd {MindIE安装目录}/latest/mindie-service/ vi conf/config.json
- 在config.json文件中“ModelConfig”字段下配置Multi Step推理特性参数“multi_step”,如下加粗内容所示,参数解释如表1所示。
PD分离部署场景下,只需要在D节点的config.json文件中“ModelConfig”字段下配置“multi_step”。
"BackendConfig" : { "backendName" : "mindieservice_llm_engine", "modelInstanceNumber" : 1, "npuDeviceIds" : [[6,7]], "tokenizerProcessNumber" : 8, "multiNodesInferEnabled" : false, "multiNodesInferPort" : 1120, "interNodeTLSEnabled" : true, "interNodeTlsCaPath" : "security/grpc/ca/", "interNodeTlsCaFiles" : ["ca.pem"], "interNodeTlsCert" : "security/grpc/certs/server.pem", "interNodeTlsPk" : "security/grpc/keys/server.key.pem", "interNodeTlsPkPwd" : "security/grpc/pass/mindie_server_key_pwd.txt", "interNodeTlsCrlPath" : "security/grpc/certs/", "interNodeTlsCrlFiles" : ["server_crl.pem"], "interNodeKmcKsfMaster" : "tools/pmt/master/ksfa", "interNodeKmcKsfStandby" : "tools/pmt/standby/ksfb", "ModelDeployConfig" : { "maxSeqLen" : 2560, "maxInputTokenLen" : 2048, "truncation" : false, "ModelConfig" : [ { "modelInstanceType" : "Standard", "modelName" : "llama3-8b", "modelWeightPath" : "/data/atb_testdata/weights/Meta-Llama-3-8B", "worldSize" : 2, "cpuMemSize" : 5, "npuMemSize" : 2, "backendType" : "atb", "trustRemoteCode" : false "multi_step" : 1 } ] }, "ScheduleConfig" : { "templateType" : "Standard", "templateName" : "Standard_LLM", "cacheBlockSize" : 128, "maxPrefillBatchSize" : 50, "maxPrefillTokens" : 8192, "prefillTimeMsPerReq" : 150, "prefillPolicyType" : 0, "decodeTimeMsPerReq" : 50, "decodePolicyType" : 0, "maxBatchSize" : 200, "maxIterTimes" : 512, "maxPreemptCount" : 0, "supportSelectBatch" : false, "maxQueueDelayMicroseconds" : 5000 } }
- 启动服务。
./bin/mindieservice_daemon
父主题: Multi Step推理