执行模型,用户需要继承ModelRunner并实现该接口。
该接口会在执行LLMModel.predict时被调用。
run_model(kv_cache: KvCache, input_tensors: Any, **kwargs)
参数名称
数据类型
取值说明
kv_cache
KvCache
KvCache。
input_tensors
Any
输入,由LLMModel.predict接口传入。
kwargs
Optional[Dict]
可选参数,由LLMModel.predict接口传入。
该接口不由用户直接调用,而是作为回调由LLMModel调用。
无