logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Continuous Batching:在大模型推理中解开吞吐与延迟的死结

Continuous Batching 本质上是对 LLM 推理计算模式的一次重新认识。它不是一种优化技巧,而是一种调度范式的转变:将请求从"一次不可分割的推理任务"重新定义为"一系列同构迭代的序列",并在迭代级别上动态组批。这个转变打开了一整套新的设计空间——PagedAttention 的内存管理、Chunked Prefill 的混合调度、RadixAttention 的前缀复用——都建立在

#python#人工智能#pytorch
vLLM 凭什么成为主流:推理架构的设计抉择与生态博弈

vLLM 成为主流,不是因为它在每个单项指标上都最强——单卡极限性能不如 TensorRT-LLM,HuggingFace 模型即开即用的便利性不如 TGI,长前缀复用不如 SGLang 的 RadixAttention 激进。把推理框架定位为"引擎"而非"平台",用 PagedAttention 解决最痛的显存问题,以通用性换取生态飞轮。在一个模型架构碎片化、硬件选型多样化、部署环境复杂化的时代

#架构
到底了