logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vllm prefix-caching实现原理

这种设计实现了自动的前缀缓存,无需在 KV block 之间维护树状结构。- [Free Block Queue(free_block_queue 属性,FreeKVCacheBlockQueue 实例)](https://github.com/vllm-project/vllm/blob/v0.8.4/vllm/v1/core/kv_cache_utils.py#L187-L188):是一个由

到底了