生成全量token,每生成一个token调用一次回调函数。回调函数通过EngineConfig的response_callback设置。
Status Forward(std::shared_ptr<InferenceRequest> &request, bool validRequest = false);
参数 |
是否必选 |
说明 |
取值要求 |
---|---|---|---|
request |
必选 |
推理请求。 |
确保有效请求格式。 |
validRequest |
必选 |
是否校验inputid。 |
|
推理请求。
1 2 3 | for (size_t i = 0; i < requests.size(); ++i) { engine.Forward(requests[i]); } |
返回异步推理的结果。