
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
继续介绍DeepSeek上周三发布的关于V3的论文,今天要说的是。本文还会结合24年的论文与的 21年的论文。

随着秋天第一杯奶茶活动的结束,也标志着夏站进入了稳定期,不确定后续还打不打以及怎么打,但短期内至少可以喘口气正常工作生活了… 我的LLM的复习计划也可以正常执行了…前几篇文章复习了数据并行策略以及VerlvLLMSGLang今天就先从皮衣家的Megatron开始。

继续介绍DeepSeek最近发布的关于V3的论文,且依然会结合年初的论文一起,同时也参考了17年混合精度训练的经典论文。

DeepSeek本周三发了篇关于V3的论文,算是年初论文的姊妹篇;主要讲解了,DeepSeek团队如何通过软硬件相结合的方式,只需要2048块Nvidia H800就可以训练出v3。下图是V3的基础架构,要想做到透彻理解,所需的知识储备也挺多挺杂的,所以决定通过多篇文章来“品鉴”;今天介绍MLA,但又不能只说MLA,需要把整个“family 累A”(我超好尬)都介绍一下,也包括MHAMQAGQA。

上篇文章提到过“模型训练篇”会重点学习字节家的Verl(阿里字节比我团在AI领域上确实走的更快一些,主要是它们搞车轮战啊,先有字节社区团购,再是京东淘宝外卖,跑题了…),但由于内容较多特别是它那片论文都没看完,需要更多时间细品,所以临时加更一期复习个稍微简单点的抱脸家的TRL。话说看到这种字体就想起 cyberpunk 夜之城了和 V震天了…

最近身体抱恙断更了,北京这温度不穿秋裤确实不行…长期作为AI修仙界的散修(偶像韩立),也形成了自己一套学习新招式的套路,就比如像下面这种 “官方简历”,就至少需要全部掌握;所以继续看看vLLM的其他核心能力,今天就盘盘它偏底层的内核优化;

前两篇文章简单复习了训练框架和,接着学习一下字节家的VeRLRayVeRLVeRLVeRLAgentic RLVeRL下面先介绍一下VeRL等众多RL框架的分布式基础,Ray。

继续介绍DeepSeek上月发布的关于V3的论文之前几篇文章已经把V3这张架构图中的原理介绍的7788了,接下来介绍更底层的。

继续学习字节家的VeRL,今天来看看VeRL的RL,是VeRL系列的第三篇文章(话说近期好多大事儿,我司发布了Longcat、韩立结婴、阿里周五发布了QWen-Next都是好东西啊,学不过来了damn)前两篇文章分别介绍了VeRL的分布式基础和其底层原理,下面就以RL的PPO为例,同时结合源码,看看具体的使用。

上篇文章介绍了vLLM核心之一的,今天继续复习;因为我目前就是在做调度系统,而这种动态batching也算一种调度,并且本周也还被人问到了, 所以即便周末北平天气这么好,非常想去爬山,但也还是先坚持沉淀一下;以下内容均来自 对vLLM 官方文档 和(截至2025-11月最新tag)的个人理解,如果错误请指正;








