logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【分布式系统】

当前算力增长比内存,网络带宽增速每10 年块4.5倍, 9 倍。计算、存储、网络:6: 3: 1。

#开发语言
【大模型训练】Efficient MoE Pre-training at Scale on 1K AMD GPUs with TorchTitan

TorchTitan 是 Meta 推出的一款原生于 PyTorch 的蓝图,专为跨多 GPU 和多节点集群的大规模训练而设计。它将针对现代大语言模型(LLM)和混合专家(MoE)模型的成熟方案打包成一个单一、可配置的训练栈,让您可以将同一套代码路径从早期实验复用到全面规模的运行中。配置优先的扩展方式只需在一个 TOML 文件中设置流水线并行、张量并行、数据并行或专家并行的度数,TorchTita

#人工智能
【大模型推理】sglang 流式并行采样

初始化占位:创建一个与并行采样数n等长的chunks列表,作为每个并行序列结果的最终存放位置。异步消费数据流:通过async for循环,不断地从 SGLang 的数据管道中取出数据块(chunk按索引分发和覆盖:根据每个chunk中的index字段,将其存放到chunks列表的正确位置,并用最新的chunk覆盖掉之前收到的同一序列的旧chunk。保留最终状态:当循环结束时,chunks列表中的每

#sglang#windows#服务器
【大模型推理】sglang 流式并行采样

初始化占位:创建一个与并行采样数n等长的chunks列表,作为每个并行序列结果的最终存放位置。异步消费数据流:通过async for循环,不断地从 SGLang 的数据管道中取出数据块(chunk按索引分发和覆盖:根据每个chunk中的index字段,将其存放到chunks列表的正确位置,并用最新的chunk覆盖掉之前收到的同一序列的旧chunk。保留最终状态:当循环结束时,chunks列表中的每

#sglang#windows#服务器
VLLM专题(三十九)—自动前缀缓存

https://mp.weixin.qq.com/s?__biz=Mzk4ODcxMjk2Ng==&mid=2247484522&idx=1&sn=7dd9cb111b6ea976321d174295d185ef&chksm=c4b2122c95d12dd377191c506d660304f542f754031e8508d7f7b5fbc7bc8661499deb0db109#rd

#学习
【大模型训练】HF转Megatron Template 及dist_converter

之所以要重写,是因为 DeepSeek-V3 模型的复杂性超出了静态转换规则的能力范围。重写该方法是为了注入动态的、基于上下文的转换逻辑处理 MTP/MLA 异构性: 根据权重所属的层索引,判断它是否为 MTP/MLA 层,并动态地将权重名称从decoder.域转换到mtp.域。处理 Dense/MoE 异构性: 根据权重所属的层索引,判断它位于 Dense 层还是 MoE 层,并根据其所属层的类

#深度学习
【大模型训练】forward_backward_func返回多个micro batch 损失

您询问的是是否在一次执行中处理多个 microbatch。

#batch#算法#开发语言
【大模型推理】sglang 内存计算

SGLang 的 GPU 内存分配遵循以下公式:2总内存 = 模型权重 + KV cache池 + CUDA图缓冲区 + 激活内存其中,激活内存和 CUDA 图缓冲区需要预留 5-8GB 空间。

#深度学习
【大模型推理】sglang flush_cache

这种设计确保了权重更新后,所有旧的 KV cache(无论是 draft 还是 target 的)都被清空,避免了使用旧权重计算的 KV 与新权重模型混用的问题。:虽然索引被清空,但每个 worker 的物理 KV buffer 是独立的,这允许它们维护不同的 KV cache 内容(在投机推理的不同阶段)调用就能清空 draft 和 target 两个 worker 的 KV cache 索引。

#人工智能
【RL 】Ray 支持RDMA

Ray 直接传输 (Ray Direct Transport) 功能通过基于 RDMA 的传输方式,在 Ray 中实现了快速、直接的 GPU 数据传输。本文将介绍如何使用其 API 来构建分布式系统,以满足诸如“面向大语言模型的强化学习 (RL for LLMs)”等用例的需求。由于需要灵活地编排分布式 GPU,Ray 在“面向大语言模型的强化学习 (RL for LLMs)”领域的采用率已大规模

#算法
    共 115 条
  • 1
  • 2
  • 3
  • 12
  • 请选择