
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
斯坦福CS336课程第十七讲深入探讨了大语言模型强化学习的核心算法与实现细节。课程首先明确了RL在LLM中的独特设定:状态为prompt+生成文本,动作为生成token,奖励为可验证结果。针对稀疏奖励问题,讲解了策略梯度算法及其改进方案,特别是引入基线函数降低方差的方法。重点剖析了GRPO算法的实现,包括奖励塑形、中心化处理等技巧,并演示了代码实现中的关键步骤(如概率比率计算与PPO截断)。

斯坦福CS336课程第十一讲深入探讨了大模型缩放定律的工业实践与数学机制。重点分析了Cerebras-GPT、MiniCPM等开源案例,揭示了最大更新参数化(MUP)的关键作用:通过1/width缩放实现超参数迁移稳定性。课程还对比了传统余弦退火与新型WSD学习率策略的优劣,指出WSD的分段式设计能动态调整训练周期,极大降低了Scaling Laws验证成本。最新趋势显示,工业界正利用缩放定律优化

《斯坦福CS336课程:大模型评估的挑战与方法》摘要:本文深入探讨了语言模型评估的复杂性和现实挑战。评估不仅是测试模型性能的机械过程,更是影响研发方向的关键环节。课程详细分析了评估框架的四个核心环节(输入、模型调用、输出评估和结果解释),并介绍了困惑度等评估指标的优缺点。文章还探讨了各类基准测试(如MMLU、GPQA)的现状与局限,开放式生成评估的难题,以及智能体和安全性评估的特殊要求。特别指出当

斯坦福CS336课程第十讲探讨了大模型推理优化的核心挑战与解决方案。课程指出推理性能受首字延迟、Token生成延迟和吞吐量三个指标影响,重点分析了KV Cache导致的显存瓶颈问题。针对这一瓶颈,提出了五大优化策略:1)通过GQA/MQA、MLA等架构改进压缩KV Cache;2)采用SSMs、线性注意力等替代架构;3)实施量化(如LLM.int8())和剪枝技术;4)利用投机解码实现无损加速;5

斯坦福CS336课程第九讲深入探讨了大模型训练中的缩放定律(Scaling Laws),揭示了如何通过小规模实验预测超大规模模型性能。课程从理论渊源、数据缩放、模型架构、批次大小优化到Chinchilla最优解等维度系统解析了科学规划训练资源的方法。重点指出:在固定算力下,模型参数量与训练数据应保持20:1的最优比例(如Chinchilla法则),但现代工业界更倾向于"过渡训练"

斯坦福CS336第八讲深入探讨了多机并行训练的代码实现与底层通信机制。课程从计算与数据传输的层级矛盾出发,分析了GPU间不同通信方式的性能差异(如NVLink与以太网)。重点讲解了集合通信原语(如All-Reduce、Reduce-Scatter)在NCCL和PyTorch中的实现,并通过MLP案例详细演示了三种并行策略:数据并行(梯度All-Reduce)、张量并行(频繁All-Gather)和

斯坦福CS336第七讲深入讲解了大模型训练的并行计算基础。课程从硬件通信原理解析入手,系统拆解了数据并行(DP)、模型并行(MP)和激活值并行三大核心策略。重点剖析了ZeRO优化的显存节省机制,包括参数切分、梯度切分和动态拉取等关键技术,以及流水线并行与张量并行的优劣对比。最后提出了3D并行黄金法则:优先使用张量并行(TP)填满单机8卡,再结合流水线并行(PP)或ZeRO-3切分模型,最后用数据并

斯坦福CS336课程第十五讲探讨了大模型对齐的关键技术(SFT、RLHF、DPO)及其挑战。SFT通过模仿专家演示让模型学会响应指令,但存在幻觉陷阱、格式偏见等问题。RLHF通过偏好数据解决SFT的质量判断缺陷,但面临人类标注的局限性。DPO创新性地将强化学习问题转化为监督学习,大幅简化了训练流程。课程揭示了当前对齐技术的核心矛盾:既要提升模型表现力,又要避免引入偏见和幻觉。完整流程包括预训练、S

斯坦福CS336课程第十四讲聚焦大模型预训练数据的底层处理算法,重点解决两大核心问题:质量过滤与去重。质量过滤提出三大算法流派:N-gram统计语言模型用于粗略筛选语法合规文本;FastText线性分类器通过哈希映射实现高效二分类;重要性重采样通过N-gram频率比估计文档权重。工业应用包括语言识别、质量过滤(如Phi-1采用大小模型协同策略)和毒性过滤。去重方面,Bloom Filter实现精确

本讲强调数据是大语言模型质量与差异化的核心护城河。训练数据大致分为预训练、中期训练与后训练:先用海量网络语料获得基础能力,再用高质量小规模数据强化数学、代码与长上下文,最后用指令微调与对齐数据产出可用的聊天模型。课程梳理了从 BERT 的书籍/维基、GPT‑2 的 WebText 到 Common Crawl 的主流过滤路线(规则过滤与模型分类过滤),以及 The Pile、书籍、代码等垂直数据的








