非社会人士个人主页

@weixin_43469527

非社会人士

2023-10-23 16:27:45 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

深入理解大模型并行：为什么 vLLM 强制要求 EP = TP × DP？

摘要：混合专家(MoE)模型部署时存在EP=TP×DP的约束问题。理论上有两种拓扑方案：DP组内EP(EP=2)和全局EP(EP=4)。vLLM强制采用后者主要基于三大优势：1)零冗余显存使用，专家权重完全切片；2)全局路由实现更好的负载均衡；3)简化通信拓扑结构。这种设计通过扩大通信域换取更高的显存利用率和更稳定的性能，体现了工程实现中对推理场景的针对性优化，而非理论限制。理解这一约束有助于合理

RL 系统 Infra 笔记：区分不同模型

本文系统梳理了强化学习系统（RLHF/PPO）的核心架构与训练流程。主要内容包括：系统概览：通过"老师批改作文"类比解释RL系统的工作机制，核心流程为生成回答→评分→模型更新循环。模型架构：明确系统包含3个主要模型实体（可训练的Actor模型、冻结的Reference模型和Reward模型），澄清常见混淆点。模块详解： Rollout阶段：Actor生成回答并记录toke

RL系统中的异步编程：async & Ray

本文总结了异步编程与分布式强化学习系统的关键概念与实践方法。主要内容包括：核心概念对比：同步（串行等待）、异步（并发切换）和分布式（多机协作）的执行模式差异。 Python异步编程工具：重点介绍asyncio的async/await语法、create_task后台执行、gather与wait的任务管理方式。分布式计算基础：讲解远程任务标记(@remote)、异步句柄(Future)的使用，以及

Linux & AI 开发实用工具速查笔记

本文整理了高效开发中常用的命令速查指南，涵盖Docker、Git、rsync、screen及Linux日志管理等核心工具。重点包括：Docker镜像迁移：对比save(保留元数据)和export(文件快照)的区别，提供容器完整迁移方案Git操作：快速查询commit ID、切换历史版本及强制回退提交的方法文件同步：详解rsync的-avzP参数组合，实现高效本地/远程文件传输会话管理：screen

#devops

到底了