logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

[论文+源码] DeepSeek V3 最新论文 之 DeepSeekMoE

继续介绍DeepSeek上周三发布的关于V3的论文,今天要说的是。本文还会结合24年的论文与的 21年的论文。

文章图片
#DeepSeek
[模型训练篇] 皮衣老黄 - Megatron

随着秋天第一杯奶茶活动的结束,也标志着夏站进入了稳定期,不确定后续还打不打以及怎么打,但短期内至少可以喘口气正常工作生活了… 我的LLM的复习计划也可以正常执行了…前几篇文章复习了数据并行策略以及VerlvLLMSGLang今天就先从皮衣家的Megatron开始。

文章图片
#开源
[论文品鉴] DeepSeek V3 最新论文 之 FP8混合精度训练

继续介绍DeepSeek最近发布的关于V3的论文,且依然会结合年初的论文一起,同时也参考了17年混合精度训练的经典论文。

文章图片
#DeepSeek
[论文品鉴] DeepSeek V3 最新论文 之 MHA、MQA、GQA、MLA

DeepSeek本周三发了篇关于V3的论文,算是年初论文的姊妹篇;主要讲解了,DeepSeek团队如何通过软硬件相结合的方式,只需要2048块Nvidia H800就可以训练出v3。下图是V3的基础架构,要想做到透彻理解,所需的知识储备也挺多挺杂的,所以决定通过多篇文章来“品鉴”;今天介绍MLA,但又不能只说MLA,需要把整个“family 累A”(我超好尬)都介绍一下,也包括MHAMQAGQA。

文章图片
#DeepSeek
【模型训练篇】抱脸虫 - TRL

上篇文章提到过“模型训练篇”会重点学习字节家的Verl(阿里字节比我团在AI领域上确实走的更快一些,主要是它们搞车轮战啊,先有字节社区团购,再是京东淘宝外卖,跑题了…),但由于内容较多特别是它那片论文都没看完,需要更多时间细品,所以临时加更一期复习个稍微简单点的抱脸家的TRL。话说看到这种字体就想起 cyberpunk 夜之城了和 V震天了…

文章图片
#开源
【模型推理篇】vLLM核心思想 - ③ Kernel内核优化(attn backend、cuBLAS、CUTLASS)

最近身体抱恙断更了,北京这温度不穿秋裤确实不行…长期作为AI修仙界的散修(偶像韩立),也形成了自己一套学习新招式的套路,就比如像下面这种 “官方简历”,就至少需要全部掌握;所以继续看看vLLM的其他核心能力,今天就盘盘它偏底层的内核优化;

文章图片
【模型训练篇】VeRL分布式基础 - 框架Ray

前两篇文章简单复习了训练框架和,接着学习一下字节家的VeRLRayVeRLVeRLVeRLAgentic RLVeRL下面先介绍一下VeRL等众多RL框架的分布式基础,Ray。

文章图片
[论文品鉴] DeepSeek V3 最新论文 之 DeepEP

继续介绍DeepSeek上月发布的关于V3的论文之前几篇文章已经把V3这张架构图中的原理介绍的7788了,接下来介绍更底层的。

文章图片
【模型训练篇】VeRL的使用 - RL(PPO)与源码

继续学习字节家的VeRL,今天来看看VeRL的RL,是VeRL系列的第三篇文章(话说近期好多大事儿,我司发布了Longcat、韩立结婴、阿里周五发布了QWen-Next都是好东西啊,学不过来了damn)前两篇文章分别介绍了VeRL的分布式基础和其底层原理,下面就以RL的PPO为例,同时结合源码,看看具体的使用。

文章图片
【模型推理篇】vLLM核心思想 - ② 动态批处理 continuous batching

上篇文章介绍了vLLM核心之一的,今天继续复习;因为我目前就是在做调度系统,而这种动态batching也算一种调度,并且本周也还被人问到了, 所以即便周末北平天气这么好,非常想去爬山,但也还是先坚持沉淀一下;以下内容均来自 对vLLM 官方文档 和(截至2025-11月最新tag)的个人理解,如果错误请指正;

文章图片
    共 20 条
  • 1
  • 2
  • 请选择