LanceGansu 个人主页

@m0_63920479

LanceGansu

2023-02-03 22:06:04 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Continuous Batching：在大模型推理中解开吞吐与延迟的死结

Continuous Batching 本质上是对 LLM 推理计算模式的一次重新认识。它不是一种优化技巧，而是一种调度范式的转变：将请求从"一次不可分割的推理任务"重新定义为"一系列同构迭代的序列"，并在迭代级别上动态组批。这个转变打开了一整套新的设计空间——PagedAttention 的内存管理、Chunked Prefill 的混合调度、RadixAttention 的前缀复用——都建立在

#python #人工智能 #pytorch

vLLM 凭什么成为主流：推理架构的设计抉择与生态博弈

vLLM 成为主流，不是因为它在每个单项指标上都最强——单卡极限性能不如 TensorRT-LLM，HuggingFace 模型即开即用的便利性不如 TGI，长前缀复用不如 SGLang 的 RadixAttention 激进。把推理框架定位为"引擎"而非"平台"，用 PagedAttention 解决最痛的显存问题，以通用性换取生态飞轮。在一个模型架构碎片化、硬件选型多样化、部署环境复杂化的时代

#架构

到底了