昇腾社区首页
中文
注册

使用样例

限制与约束

  • Atlas 800I A2 推理服务器Atlas 800I A3 超节点支持此特性。
  • 该特性仅能在使能异步调度时生效。
  • 该特性不支持和Sequence Parallel(SP)、Context Parallel(CP)同时开启。
  • 该特性暂不支持n、best_of、use_beam_search等与多序列推理相关的后处理参数。
  • 该特性不能和并行解码、SplitFuse同时使用。
  • 该特性暂不支持“tp>1”的使用场景。

操作步骤

  1. 设置环境变量,打开异步调度功能。该环境变量详细说明请参见环境变量
    export MINDIE_ASYNC_SCHEDULING_ENABLE=1

    PD分离部署场景下,仅在D节点通过该环境变量开启异步调度。

  2. 打开MindIE Motor的config.json文件。
    cd {MindIE安装目录}/latest/mindie-service/
    vi conf/config.json
  3. 在config.json文件中“ModelConfig”字段下配置Multi Step推理特性参数“multi_step”,如下加粗内容所示,参数解释如表1所示。

    PD分离部署场景下,只需要在D节点的config.json文件中“ModelConfig”字段下配置“multi_step”

    "BackendConfig" : {
            "backendName" : "mindieservice_llm_engine",
            "modelInstanceNumber" : 1,
            "npuDeviceIds" : [[6,7]],
            "tokenizerProcessNumber" : 8,
            "multiNodesInferEnabled" : false,
            "multiNodesInferPort" : 1120,
            "interNodeTLSEnabled" : true,
            "interNodeTlsCaPath" : "security/grpc/ca/",
            "interNodeTlsCaFiles" : ["ca.pem"],
            "interNodeTlsCert" : "security/grpc/certs/server.pem",
            "interNodeTlsPk" : "security/grpc/keys/server.key.pem",
            "interNodeTlsPkPwd" : "security/grpc/pass/mindie_server_key_pwd.txt",
            "interNodeTlsCrlPath" : "security/grpc/certs/",
            "interNodeTlsCrlFiles" : ["server_crl.pem"],
            "interNodeKmcKsfMaster" : "tools/pmt/master/ksfa",
            "interNodeKmcKsfStandby" : "tools/pmt/standby/ksfb",
            "ModelDeployConfig" :
            {
                "maxSeqLen" : 2560,
                "maxInputTokenLen" : 2048,
                "truncation" : false,
                "ModelConfig" : [
                    {
                        "modelInstanceType" : "Standard",
                        "modelName" : "llama3-8b",
                        "modelWeightPath" : "/data/atb_testdata/weights/Meta-Llama-3-8B",
                        "worldSize" : 2,
                        "cpuMemSize" : 5,
                        "npuMemSize" : 2,
                        "backendType" : "atb",
                        "trustRemoteCode" : false
                        "multi_step" : 1
                    }
                ]
            },
            "ScheduleConfig" :
            {
                "templateType" : "Standard",
                "templateName" : "Standard_LLM",
                "cacheBlockSize" : 128,
                "maxPrefillBatchSize" : 50,
                "maxPrefillTokens" : 8192,
                "prefillTimeMsPerReq" : 150,
                "prefillPolicyType" : 0,
                "decodeTimeMsPerReq" : 50,
                "decodePolicyType" : 0,
                "maxBatchSize" : 200,
                "maxIterTimes" : 512,
                "maxPreemptCount" : 0,
                "supportSelectBatch" : false,
                "maxQueueDelayMicroseconds" : 5000
            }
    }
    表1 Multi Step推理特性补充参数

    配置项

    取值类型

    取值范围

    配置说明

    multi_step

    int

    [0,1]

    在一次调度中进行异步前向推理的次数。

  4. 启动服务。
    ./bin/mindieservice_daemon