on_cache_allocated

当ModelRunner关联的Decode LLMModel分配了KvCache后回调。

由于Decode每次推理都使用相同的KvCache，所以可以通过该回调提前准备KvCache对应的Tensor，避免重复转换，从而提升性能。

默认实现为空。

on_cache_allocated(kv_cache: KvCache)

参数名称	数据类型	取值说明
kv_cache	KvCache	KvCache。

该接口不由用户直接调用，而是作为回调由LLMModel调用。

无

无

父主题： ModelRunner