IT Panda 个人主页

@ilfrost

IT Panda

2022-07-08 16:56:58 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

[论文+源码] DeepSeek V3 最新论文之 DeepSeekMoE

继续介绍DeepSeek上周三发布的关于V3的论文，今天要说的是。本文还会结合24年的论文与的 21年的论文。

#DeepSeek

[模型训练篇] 皮衣老黄 - Megatron

随着秋天第一杯奶茶活动的结束，也标志着夏站进入了稳定期，不确定后续还打不打以及怎么打，但短期内至少可以喘口气正常工作生活了… 我的LLM的复习计划也可以正常执行了…前几篇文章复习了数据并行策略以及VerlvLLMSGLang今天就先从皮衣家的Megatron开始。

#开源

[论文品鉴] DeepSeek V3 最新论文之 FP8混合精度训练

继续介绍DeepSeek最近发布的关于V3的论文，且依然会结合年初的论文一起，同时也参考了17年混合精度训练的经典论文。

#DeepSeek

DeepSeek本周三发了篇关于V3的论文，算是年初论文的姊妹篇；主要讲解了，DeepSeek团队如何通过软硬件相结合的方式，只需要2048块Nvidia H800就可以训练出v3。下图是V3的基础架构，要想做到透彻理解，所需的知识储备也挺多挺杂的，所以决定通过多篇文章来“品鉴”；今天介绍MLA，但又不能只说MLA，需要把整个“family 累A”（我超好尬）都介绍一下，也包括MHAMQAGQA。

#DeepSeek

【模型训练篇】抱脸虫 - TRL

上篇文章提到过“模型训练篇”会重点学习字节家的Verl（阿里字节比我团在AI领域上确实走的更快一些，主要是它们搞车轮战啊，先有字节社区团购，再是京东淘宝外卖，跑题了…），但由于内容较多特别是它那片论文都没看完，需要更多时间细品，所以临时加更一期复习个稍微简单点的抱脸家的TRL。话说看到这种字体就想起 cyberpunk 夜之城了和 V震天了…

#开源

【模型推理篇】vLLM核心思想 - ③ Kernel内核优化（attn backend、cuBLAS、CUTLASS）

最近身体抱恙断更了，北京这温度不穿秋裤确实不行…长期作为AI修仙界的散修（偶像韩立），也形成了自己一套学习新招式的套路，就比如像下面这种 “官方简历”，就至少需要全部掌握；所以继续看看vLLM的其他核心能力，今天就盘盘它偏底层的内核优化；

【模型训练篇】VeRL分布式基础 - 框架Ray

前两篇文章简单复习了训练框架和，接着学习一下字节家的VeRLRayVeRLVeRLVeRLAgentic RLVeRL下面先介绍一下VeRL等众多RL框架的分布式基础，Ray。

[论文品鉴] DeepSeek V3 最新论文之 DeepEP

继续介绍DeepSeek上月发布的关于V3的论文之前几篇文章已经把V3这张架构图中的原理介绍的7788了，接下来介绍更底层的。

【模型训练篇】VeRL的使用 - RL(PPO)与源码

继续学习字节家的VeRL，今天来看看VeRL的RL，是VeRL系列的第三篇文章（话说近期好多大事儿，我司发布了Longcat、韩立结婴、阿里周五发布了QWen-Next都是好东西啊，学不过来了damn）前两篇文章分别介绍了VeRL的分布式基础和其底层原理，下面就以RL的PPO为例，同时结合源码，看看具体的使用。

【模型推理篇】vLLM核心思想 - ② 动态批处理 continuous batching

上篇文章介绍了vLLM核心之一的，今天继续复习；因为我目前就是在做调度系统，而这种动态batching也算一种调度，并且本周也还被人问到了，所以即便周末北平天气这么好，非常想去爬山，但也还是先坚持沉淀一下；以下内容均来自对vLLM 官方文档和（截至2025-11月最新tag）的个人理解，如果错误请指正；

共 20 条

请选择