logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型后训练部分 强化学习学习路径

摘要: 针对大模型后训练(PPO/DPO)的畏难心理,本文提出工程化学习路径: 1️⃣ 心理脱敏:明确后训练核心是“可控梯度更新”,非强化学习理论; 2️⃣ 聚焦DPO:掌握数据格式、loss设计、β参数作用等5个关键点,1周速成; 3️⃣ 实践验证:通过调参对比SFT/DPO效果,记录失败模式; 4️⃣ 面试导向:整理方法对比表(PPO/DPO/GRPO)和应答模板,强调工程取舍而非公式推导。

#学习
直击面试 大模型学习路径

摘要 本文为AI研二学生提供了一份大模型/强化学习方向面试准备指南,重点分析了RLHF/RFT岗位的核心考察点,包括强化学习算法、大模型训练流程、优化技术等五大知识板块。针对可能的知识盲区,推荐了分阶段学习路径:先夯实强化学习基础(Sutton教材+David Silver课程),再掌握RLHF/RFT技术(Alignment Handbook+关键论文),最后通过实践项目巩固。文章特别强调PPO

文章图片
#面试#学习#职场和发展
agent 详解 LLM→agent→MCP→结果

这篇文章详细解释了OpenHands系统中LLM、Agent和MCP三者之间的关系与协作机制。主要内容包括: 角色分工: LLM(如DeepSeek v3)负责思考和生成文本 Agent作为编排层管理工具调用流程 MCP Server提供具体工具服务 MCP Client负责通信连接 工作流程: Agent将可用工具清单注入LLM提示词 LLM决定是否调用工具 Agent执行实际工具调用并回传结果

文章图片
#深度学习
GELU激活函数的论文虽被ICLR拒绝 但是被引用超8000次

GELU激活函数论文虽被ICLR 2017拒绝,但通过arXiv预印本广泛传播,被引用超8000次。该研究将随机正则化与非线性激活结合,推导出GELU(x)=x·Φ(x)的数学表达式。BERT等大模型通过实验验证了其优越性,使其成为默认激活函数。这一案例体现了"理论创新→实验验证→生态扩散"的传播路径:预印本开放共享→明星模型采用→开源社区推广,展示了学术成果价值未必依赖传统发

#人工智能#深度学习#机器学习
强化学习核心路线总结

在策略优化中:它是直接的优化目标,公式就是核心工具。在价值函数方法中:目标是找到能最大化长期价值的动作,而不是直接对策略求导。在模型基方法中:目标是学习环境模型,再用模型来规划最优行为,期望回报是通过模型推演得到的。所以,强化学习并不是“都围绕这一个公式”,而是围绕“如何让智能体在环境中获得最大累计回报”这个核心问题,发展出了多种不同的技术路径。如果你想更清晰地看到这些流派的区别,我可以帮你整理一

文章图片
李宏毅 强化学习概述课程笔记

我做了一个动作,如果结果比我原本对这个状态的预期好,就提高这个动作概率;如果更差,就降低。而 Version 4 用的“好或差”的度量就是:以你现在的背景(已完成预训练 + SFT,还在系统学 RL):✅ 你完全走在「大模型研究生 / 工程实习生」的正确主线上❌ 千万别掉进“传统 RL 深水区”

minimind MOE 模型在happy_llm 问问猴子数据集上训练的 scaling law分析

摘要:本文基于Chinchilla Scaling Law分析了MoE模型训练中的参数与数据比例问题。通过计算得出,当前配置(14.8B tokens/75M激活参数)存在严重的数据冗余和模型容量不足问题,数据量超出理论最优值10倍。文章指出这种配置会导致训练效率低下,建议优先扩大模型规模而非增加数据量,并提供了三种改进方案:1)将模型参数提升至740M;2)提前停止训练;3)转向其他研究目标。最

文章图片
2026年1月14日学习计划

本文主要讨论BPE算法优化和GPT-2分词实现。作者计划本周完成BPE算法优化(包括更新算法和多线程训练),收尾happy_llm项目,并开始minimind学习。重点分析了GPT-2的BPE分词规则,发现其会在单词前保留空格,这可能是为了保持上下文边界。在优化方面,指出合并best_pair的过程可以并行处理,但确定全局最高频best_pair仍需单线程完成。代码示例展示了如何使用正则表达式实现

#学习
为什么大模型预训练通常倾向于训练1 Epoch

追求数据多样性,通常1 Epoch(或稍微多一点的高质量数据重采样)。数据不够,容量未满,通常需要多 Epoch来收敛。如果你对Scaling Law(扩展定律)感兴趣,我可以为你详细解释Chinchilla 公式,或者帮你分析一下 MiniMind 这个项目的代码结构,看看它是如何处理数据加载(DataLoader)以支持这 1 个 Epoch 的。你需要哪方面的帮助?

大模型后训练强化学习理论基础应该看李宏毅强化学习还是看斯坦福CS234

摘要:针对1个月内求职导向的大模型后训练学习,建议采用"李宏毅打底+CS234拔高"的混合策略。李宏毅课程(4小时)适合快速掌握PPO核心原理,CS234(3小时)的DPO作者讲座是面试加分项,再辅以李宏毅2024课程(1小时)了解RLHF实战应用。这种组合既能快速理解原理写出代码,又能掌握前沿技术应对面试,避免陷入完整课程耗时过长的困境。重点推荐CS234 Lecture 9

    共 34 条
  • 1
  • 2
  • 3
  • 4
  • 请选择