TTlovelearing 个人主页

@2504_93093938

TTlovelearing

2025-08-17 10:11:49 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM主要模块Scheduler详解

vLLM调度器核心机制解析本文详细剖析了vLLM(v0.11.0)中调度器(Scheduler)的工作原理。调度器通过两个关键队列(waiting和running)管理prompt请求，采用基于token预算(token_budget)的动态分配策略。当新请求进入时，会先存入waiting队列；执行时首先处理running队列中的请求，为每个请求计算所需token数并尝试分配显存块，若分配失败则

#transformer #gitlab

到底了