logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深入理解大模型并行:为什么 vLLM 强制要求 EP = TP × DP?

摘要:混合专家(MoE)模型部署时存在EP=TP×DP的约束问题。理论上有两种拓扑方案:DP组内EP(EP=2)和全局EP(EP=4)。vLLM强制采用后者主要基于三大优势:1)零冗余显存使用,专家权重完全切片;2)全局路由实现更好的负载均衡;3)简化通信拓扑结构。这种设计通过扩大通信域换取更高的显存利用率和更稳定的性能,体现了工程实现中对推理场景的针对性优化,而非理论限制。理解这一约束有助于合理

RL 系统 Infra 笔记:区分不同模型

本文系统梳理了强化学习系统(RLHF/PPO)的核心架构与训练流程。主要内容包括: 系统概览:通过"老师批改作文"类比解释RL系统的工作机制,核心流程为生成回答→评分→模型更新循环。 模型架构:明确系统包含3个主要模型实体(可训练的Actor模型、冻结的Reference模型和Reward模型),澄清常见混淆点。 模块详解: Rollout阶段:Actor生成回答并记录toke

RL系统中的异步编程:async & Ray

本文总结了异步编程与分布式强化学习系统的关键概念与实践方法。主要内容包括: 核心概念对比:同步(串行等待)、异步(并发切换)和分布式(多机协作)的执行模式差异。 Python异步编程工具:重点介绍asyncio的async/await语法、create_task后台执行、gather与wait的任务管理方式。 分布式计算基础:讲解远程任务标记(@remote)、异步句柄(Future)的使用,以及

Linux & AI 开发实用工具速查笔记

本文整理了高效开发中常用的命令速查指南,涵盖Docker、Git、rsync、screen及Linux日志管理等核心工具。重点包括:Docker镜像迁移:对比save(保留元数据)和export(文件快照)的区别,提供容器完整迁移方案Git操作:快速查询commit ID、切换历史版本及强制回退提交的方法文件同步:详解rsync的-avzP参数组合,实现高效本地/远程文件传输会话管理:screen

#devops
到底了