on_cache_allocated
产品支持情况
产品 |
是否支持 |
---|---|
x |
|
√ |
|
x |
|
x |
|
x |
|
x |
函数功能
当ModelRunner关联的Decode LLMModel分配了KvCache后回调。
由于Decode每次推理都使用相同的KvCache,所以可以通过该回调提前准备KvCache对应的Tensor,避免重复转换,从而提升性能。
默认实现为空。
函数原型
1 | on_cache_allocated(kv_cache: KvCache) |
参数说明
参数名称 |
数据类型 |
取值说明 |
---|---|---|
kv_cache |
KvCache。 |
调用示例
该接口不由用户直接调用,而是作为回调由LLMModel调用。
返回值
无
约束说明
无
父主题: ModelRunner