VLLM历次会议(2024.6)

smartcat2010

330人浏览 · 2025-02-13 00:29:53

smartcat2010 · 2025-02-13 00:29:53 发布

VLLM功能矩阵

chunked prefill

qps上来以后，延迟能有明显的优化。

原理就是新到request的prefill，不阻塞正在decode的request。

FP8量化的支持

动态量化，即激活是在推理阶段进行量化，不需要提前calibration:

FlashInfer

NCCL和custom allreduce(应该就是指one-shot和two-shot以及half-bufferfly那些，小数据量通信情况下，降低延迟用的）

Speculative Decoding

和continous batching一起使用时，为什么加速比和qps有关？

不同种类：

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

FlagOS Day 0 跨芯适配 GLM-5.2：发布即覆盖四款芯片，支持 vLLM + SGLang双插件

同时，FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio，覆盖科学计算与信号处理场景，共计 102 个领域算子，从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载，vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer