
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
InstructGPT 论文阅读笔记:从 GPT-3 到 RLHF 指令对齐
这篇论文介绍了InstructGPT,这是从GPT-3到ChatGPT演进的关键一步。核心问题是:大语言模型参数增加并不自动意味着更符合人类意图。作者提出通过人类反馈强化学习(RLHF)来优化模型,包括三个步骤:监督微调(SFT)让模型学会基本回答模式;训练奖励模型(RM)学习人类偏好;使用PPO强化学习进一步优化。实验显示,1.3B参数的InstructGPT在人类评估中优于175B的GPT-3
InstructGPT 论文阅读笔记:从 GPT-3 到 RLHF 指令对齐
这篇论文介绍了InstructGPT,这是从GPT-3到ChatGPT演进的关键一步。核心问题是:大语言模型参数增加并不自动意味着更符合人类意图。作者提出通过人类反馈强化学习(RLHF)来优化模型,包括三个步骤:监督微调(SFT)让模型学会基本回答模式;训练奖励模型(RM)学习人类偏好;使用PPO强化学习进一步优化。实验显示,1.3B参数的InstructGPT在人类评估中优于175B的GPT-3
从零训练 64M MiniMind 小型 GPT:3090 单卡复现实战总结
通过本次作业,我完整复现了 MiniMind 的最小训练闭环:从数据集准备、环境配置、预训练、监督微调到最终推理测试。实验结果表明,在单张 RTX 3090 上,可以较低成本训练出一个约 64M 参数的小型 GPT 模型,并让它具备基础对话能力。预训练阶段主要负责学习通用语言规律和知识分布。SFT 阶段主要负责让模型学会按照用户指令进行回答。模型权重、数据路径和训练脚本之间的对应关系非常重要。
到底了







