logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

[cuda]TokenWeave

在分布式系统中,通过重新排序计算与通信,并借助融合内核消除冗余,可实现“计算换通信”的反直觉优化。对于百亿/千亿参数模型,此类融合可将单层延迟降低 20% 以上,是继张量并行、序列并行后的又一重要优化维度。AllReduce 后每个 GPU 得到完整张量每个 GPU 只计算完整张量的一个切片,其余部分补零。AllReduce 的求和语义将这些零和有效值相加,使得每个 GPU 获得所有切片的拼接结果

#人工智能
【大模型推理】sglang 内存计算

SGLang 的 GPU 内存分配遵循以下公式:2总内存 = 模型权重 + KV cache池 + CUDA图缓冲区 + 激活内存其中,激活内存和 CUDA 图缓冲区需要预留 5-8GB 空间。

#深度学习
【RL】sglang 流式返回

chunk3 = {","spec_verify_ct": 3, # 最终验证次数"spec_accepted_tokens": 6, # 最终接受token数。

#设计模式
【大模型推理】sglang 流式并行采样

初始化占位:创建一个与并行采样数n等长的chunks列表,作为每个并行序列结果的最终存放位置。异步消费数据流:通过async for循环,不断地从 SGLang 的数据管道中取出数据块(chunk按索引分发和覆盖:根据每个chunk中的index字段,将其存放到chunks列表的正确位置,并用最新的chunk覆盖掉之前收到的同一序列的旧chunk。保留最终状态:当循环结束时,chunks列表中的每

#sglang#windows#服务器
【大模型推理】sglang flush_cache

这种设计确保了权重更新后,所有旧的 KV cache(无论是 draft 还是 target 的)都被清空,避免了使用旧权重计算的 KV 与新权重模型混用的问题。:虽然索引被清空,但每个 worker 的物理 KV buffer 是独立的,这允许它们维护不同的 KV cache 内容(在投机推理的不同阶段)调用就能清空 draft 和 target 两个 worker 的 KV cache 索引。

#人工智能
【RL】ROLL sglang 异步调度

是 ROLL 框架中异步生成请求完成后的回调函数,负责将 SGLang 生成的结果返回给原始请求方。存储response_callback_fn。方法中,回调函数执行以下操作。回调函数将处理完成的。

#人工智能
【vllm】AsyncLLM 协程学习

的用法是定义一个可以被并发执行的、非阻塞的生成任务。为什么用async?vLLM 的 API 服务器需要同时处理成百上千个用户的请求。如果使用同步模式,一个用户的请求在等待 GPU 计算时,整个服务器线程就会被阻塞,其他所有用户都得排队等着,这会造成巨大的性能瓶颈。async解决了什么问题?通过async和await,当一个请求在等待 GPU 时,服务器可以立即切换去处理另一个请求,或者从 GPU

#学习
【vllm】 DP并行代码解析

好的,我们来详细解析这个函数的作用、它生成的地址是什么样子,以及它在 vLLM 架构中的用途。这个函数的核心作用是生成一个用于 ZMQ 通信的地址字符串。在 vLLM 的分布式架构中,不同的进程(如 API Server、Engine Core、DP Coordinator)需要相互通信。ZMQ 是它们之间通信的“高速公路”。要在这条高速公路上通信,每个通信端点都需要一个唯一的“地址”,就像房子需

【vllm】vllm/docs/configuration/optimization.md

当输入处理(在 API 服务器内运行)相比模型执行(在引擎核心内运行)成为瓶颈,并且您有额外的 CPU 容量时,这非常有用。尽管如此,由于多模态编码器的权重在每个 TPrank 上被复制,内存消耗会略有增加,如果模型刚好能放入内存,可能导致 OOM。默认情况下,TP 用于对多模态编码器的权重进行分片,就像对语言解码器一样,以减少每个 GPU 上的内存和计算负载。专家并行是一种专门用于混合专家(Mo

【vllm】OMP_NUM_THREADS

vLLM 启动多进程 worker 前,根据 CUDA/Ray 环境决定是否强制用spawn,再根据容器 CPU 配额和并行 worker 数量,自动把每个进程的 CPU 线程数降到合理范围,避免多进程下线程打架导致性能下降。到底控制什么和的关系为什么world_size增大时每个 worker 的线程数要减少在 Docker / K8s 里这段代码为什么特别重要OpenMP线程不是这段代码里直接

    共 160 条
  • 1
  • 2
  • 3
  • 16
  • 请选择