AI大模型训练:基于人类反馈的强化学习(RLHF)全解析,零基础小白收藏这一篇就够了!!
本文详细介绍了基于人类反馈的强化学习(RLHF)在大模型训练中的应用。阐述了RLHF的两大核心步骤:奖励模型训练和近端策略优化,以及如何通过3H原则(有用性、真实性、无害性)指导模型生成符合人类价值观的输出。同时介绍了奖励模型的训练方法、数据收集方式和KL散度惩罚机制等技术,帮助读者理解如何让大模型更好地遵循人类偏好。
前言
在对大语言模型进行有监督微调(SFT)之后,它们已经具备了基本的指令理解和多轮对话能力,可以和用户进行初步的交流。不过,由于这些模型的参数规模庞大、训练数据复杂,它们的行为有时难以预测。“如何让 AI 遵循人类价值观”就成了一个核心问题。
研究人员提出,模型的输出应该遵循 3H 原则:
- 有用性(Helpfulness):回答要对人有帮助。
- 真实性(Honesty):回答要尽量准确可靠。
- 无害性(Harmless):回答不能带来负面影响。
为了让模型逐渐学会遵循这些人类偏好,科学家们引入了一种方法——基于人类反馈的强化学习(RLHF)。
一、RLHF 的两大核心步骤
- 奖励模型训练
首先,研究人员会收集一批由人类标注的“偏好数据”,比如:对同一个问题,哪一条回答更好。奖励模型就通过这些数据学习人类的喜好,从而能为模型的输出打分。它的任务就是模拟人类偏好:有帮助的内容加分,有害或错误的内容减分。 - 近端策略优化(PPO)
有了奖励模型之后,就可以把它当作“评委”,指导语言模型继续学习。OpenAI 在 RLHF 中常用的一种强化学习算法是 PPO(Proximal Policy Optimization,近端策略优化)。它的目标是在不断尝试和调整中,让模型逐步学会生成更符合人类期望的回答。
如上图所示:PPO 的训练流程,一般会用到四个模型:
- 策略模型(Policy Model):负责生成回答。
- 奖励模型(Reward Model):给回答打分。
- 评论模型(Critic Model):预测回答的长期收益,帮助判断哪些回答值得优化。
- 参考模型(Reference Model):相当于安排一个指导员,避免模型在训练过程中发生过度偏离。
训练的大致步骤是:
- 环境采样
策略模型根据输入生成多条回答,奖励模型给这些回答打分。 - 优势估计
借助评论模型和 GAE(广义优势估计) 方法,计算出每个回答的“优势值”,也就是这条回答相比平均水平好多少。 - 优化调整
使用优势值来更新策略模型,让它更倾向于输出高分回答。同时,参考模型会对比更新前后的差距,确保调整幅度不会过大,从而保持稳定。
二、奖励模型:让 AI 学会像人一样打分
在基于人类反馈的强化学习(RLHF)中,奖励模型扮演着关键角色。它就像一个“模拟评委”,用来模仿人类的打分方式,帮助语言模型学会什么样的回答更符合人类偏好。
如果没有奖励模型,那就得在每次训练迭代中都由人类亲自去挑选更好的答案。这不仅耗时耗力,还很难在大规模训练中实现。奖励模型的优势就在于:一旦学会了人类的偏好,它就能像“自动评审器”一样,随时为模型的输出打分,从而大大降低人类参与的成本。
奖励模型的训练主要涉及三个方面:数据收集、模型训练和开源数据。
1. 数据收集:人类偏好从哪里来?
奖励模型的基础是“人类偏好数据”。这里最核心的参考是 Anthropic 团队提出的 HH-RLHF 数据集。这个数据集围绕大语言模型的 3H 原则(有用、真实、无害) 来构建,重点关注“有用性”和“无害性”。
- 有用性(Helpfulness)
有用性意味着回答不仅要遵循指令,还能帮用户完成任务。比如,有些问题本身可能存在歧义,需要标注者根据自己的理解来选择哪个回答更有帮助。
在数据收集时,标注者会和模型进行对话,让模型回答问题、撰写文本、提供建议等。然后,他们会在多个候选回答中选出一个“更有用”的答案。 - 无害性(Harmlessness)
衡量无害性更有挑战性。举个例子:
- 如果模型在聊天机器人里输出了暴力或仇恨内容,那就非常有害。
- 但如果这些“有害回答”被用来训练一个检测模型,反而可能是有益的。
因此,在数据收集时,标注者会刻意用一些“刁钻”问题(比如违法计划)来试探模型是否会给出危险的回应。如果给了,他们就会在候选答案中挑选哪个“更有害”。
这里要注意的是:
- 有用性和无害性往往存在冲突。比如,一个模型回答“我不知道”很安全,但可能没什么帮助;另一个模型虽然给出详细建议,但可能带来风险。
- 最终的数据集往往会把这两类对话混合起来,用于训练奖励模型,从而让模型既能提供有用信息,又能避免违规输出。
2. 数据收集方式
主要通过的在线对话平台收集数据。具体流程是这样的:
- 标注者用自然语言向模型提出任务,比如“帮我写个总结”或“解释一个概念”。
- 模型生成两个不同的回答(可能来自同一个模型,也可能来自两个不同模型)。
- 标注者在这两个回答中,选出一个“更有用”或“更有害”的答案。
- 对话继续进行,直到形成一个完整的对话样本。
在这个过程中,标注者不仅能表达自己的选择,还能标注“偏好强度”。不过,最终的数据集里并不会保留强度,只会把每一次选择当作一个“二选一”的结果。
- 在“有用性”数据集中,对话会往帮助用户的方向发展。
- 在“无害性”数据集中,对话则会被故意引导到潜在危险的方向。
这种方式得到的 HH-RLHF 数据集,可以覆盖广泛的对话场景。由于对话天然贴近人类的直觉,因此这种数据收集方式具有很强的通用性。几乎所有基于文本的任务(写作、回答问题、推理等)都能通过对话形式来呈现。
3. 数据集示例
在实际数据集中,每个样本都会包含一个 chosen(被选中回答) 和一个 rejected(被拒绝回答)。
chosen
:标注者更喜欢的回答。rejected
:相对不理想的回答。
比如:
- 用户问了一个问题,两个候选回答中,回答 A 更准确、更有帮助,就会被标记为 chosen;回答 B 则作为 rejected。
- 在无害性测试中,如果两个回答都带有风险,那么风险更高的那个会被选为 chosen,用来训练模型更好地识别有害内容。
三、模型的训练:教 AI 学会打分
在大模型训练里,奖励模型(Reward Model, RM) 是非常关键的一环。它的任务就像“裁判”,需要判断一段文本的好坏。通常,奖励模型是基于 Transformer 的预训练语言模型改造而来:把最后一层替换掉,加上一层额外的线性层,这样就能为每个输入输出对打一个分数。分数越高,说明这段文本越符合人类偏好。
奖励模型怎么训练?
训练奖励模型需要一种特殊的数据——成对比较数据。简单来说,就是同一个输入下,准备两段不同的输出:一段是人类更喜欢的(首选样本),另一段是相对较差的(非首选样本)。模型的目标就是学会区分两者,把更好的那段打分更高。
公式上,可以理解为:
- 如果首选样本打分比非首选样本高很多,模型就学对了;
- 如果打分差值小于 0,说明模型把更差的答案评得更高,这是不理想的。
但现实中,由于人类的偏好带有主观性,这类数据集往往会带有噪声,导致奖励模型不可能做到“百分之百正确”。
模仿学习的引入
为了提升效果,有研究者引入了模仿学习(Imitation Learning)。这种方法不止是比较两个输出,而是让模型去模仿人类专家的答案。具体做法是:在损失函数里加入一项“语言模型的自回归损失”,让模型更倾向于生成接近人类标注的内容。通过一个系数来调节模仿的权重,这样既能保持比较式训练的优势,又能让模型学会“像人一样回答”。
惩罚机制:KL 散度
还有一个问题是:如果奖励模型只追求高分,可能会让最终训练出的策略模型偏离原本的语言模型太远,变得“不稳”。
为了解决这个问题,研究者引入了一个惩罚项——KL 散度。它衡量当前策略模型与最初监督微调模型(SFT)的差距。如果差距太大,就会产生惩罚,从而避免模型跑偏。最终的奖励函数可以理解为:
👉 总奖励 = 原始奖励 − 惩罚项(KL 散度)
这样一来,模型既能学会人类偏好,又不会偏离原本的语言能力。
总结一下:
- 奖励模型就像裁判,判定哪个回答更好;
- 成对比较就像评委打分,把优劣答案拉开差距;
- 模仿学习就像学生背诵老师的范文;
- KL 惩罚则像护栏,防止学生跑题太远。
最终,大模型通过这些机制,逐渐学会了更符合人类预期的输出。
最后
为什么要学AI大模型
当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!
DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。
与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

AI大模型系统学习路线
在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。
但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。
AI大模型入门到实战的视频教程+项目包
看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
海量AI大模型必读的经典书籍(PDF)
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
600+AI大模型报告(实时更新)
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
AI大模型面试真题+答案解析
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

更多推荐
所有评论(0)