【LLM】大模型之RLHF和替代方法（DPO、RAILF、ReST等）

SFT使用交叉熵损失函数，目标是调整参数使模型输出与标准答案一致，不能从整体把控output质量，RLHF（分为奖励模型训练、近端策略优化两个步骤）则是将output作为一个整体考虑，优化目标是使模型生成高质量回复。启发1：像可以用6b、66b依次得到差一点、好一点的target构造排序数据集，进行DPO直接偏好学习或者其他RLHF替代方法（RAILF、ReST等），比直接RLHF更方便训练启发2

文章共23,788字 · 阅读需要大约80分钟

一键AI生成摘要，助你高效阅读

问答

山顶夕景

3902人浏览 · 2023-12-11 22:36:10

山顶夕景 · 2023-12-11 22:36:10 发布

note

SFT使用交叉熵损失函数，目标是调整参数使模型输出与标准答案一致，不能从整体把控output质量，RLHF（分为奖励模型训练、近端策略优化两个步骤）则是将output作为一个整体考虑，优化目标是使模型生成高质量回复。
- 启发1：像可以用6b、66b依次得到差一点、好一点的target构造排序数据集，进行DPO直接偏好学习或者其他RLHF替代方法（RAILF、ReST等），比直接RLHF更方便训练
- 启发2：为了减少幻觉（如拒绝回答），可以构造排序数据集（如good response为拒绝话术，bad response是没拒绝的胡乱回答）进行RLHF
- 实验：基于chatglm 6b、gpt4构造排序数据集，然后对微调6b后的sft模型进行dpo直接偏好学习训练
奖励模型训练：奖励模型通常也采用基于 Transformer 架构的预训练语言模型。在奖励模型中，移除最后一个
非嵌入层，并在最终的 Transformer 层上叠加了一个额外的线性层。无论输入的是何种文本，奖励
模型都能为文本序列中的最后一个标记分配一个标量奖励值，样本质量越高，奖励值越大。
在RLHF中（比如MOSS-RLHF）是使用奖励模型来初始化评论家模型（critic model）和奖励模型（reward model），评论家模型也使用奖励模型初始化，便于在早期提供较准确的状态值估计；但是注意PPO会对策略模型、评论家模型训练并更新；奖励模型、参考模型不参与训练。
- 异策略：固定一个演员和环境交互（不需要更新），将交互得到的轨迹交给另一个负责学习的演员训练。PPO就是策略梯度的异策略版本。通过重要性采样（这里使用KL散度）进行策略梯度的更新。PPO解决了传统策略梯度方法的缺点：高方差、低数据效率、易发散等问题。
- PPO-clip算法通过引入裁剪机制来限制策略更新的幅度，使得策略更新更加稳定

零、强化学习基础知识

1. 强化学习框架的六要素

（1）一句话：RL是研究agent智能体和环境交互的问题，目标是使agent在复杂而不确定的环境中最大化奖励值。

智能体（Agent）：强化学习的主体也就是作出决定的“大脑”；
环境（Environment）：智能体所在的环境，智能体交互的对象；
行动（Action）：由智能体做出的行动；
奖励（Reward）：智能体作出行动后，该行动带来的奖励；
状态（State）：智能体自身当前所处的状态；
目标（Objective）：指智能体希望达成的目标。

串起6要素：一个在不断变化的【环境】中的【智能体】，为了达成某个【目标】，需要不断【行动】，行动给予反馈即【奖励】，智能体对这些奖励进行学习，改变自己所处的【状态】，再进行下一步行动，即持续这个【行动-奖励-更新状态】的过程，直到达到目标。

（2）策略与价值：

agent在尝试各种行为时，就是在学习一个策略policy（一套指导agent在特定状态下行动的规则）
agent会估计价值value，即预测未来采取某个行为后所能带来的奖励

任何一个有智力的个体，它的学习过程都遵循强化学习所描述的原理。比如说，婴儿学走路就是通过与环境交互，不断从失败中学习，来改进自己的下一步的动作才最终成功的。再比如说，在机器人领域，一个智能机器人控制机械臂来完成一个指定的任务，或者协调全身的动作来学习跑步，本质上都符合强化学习的过程。

（3）奖励模型（Reward Model）和评论模型（Critic Model）：

奖励模型（Reward Model）：奖励模型是强化学习中一个基本元素，它定义了智能体执行特定动作后将得到的奖励。换句话说，奖励模型为智能体在其环境中执行的每个动作提供奖励（正面）或惩罚（负面）。这个模型帮助智能体理解哪些动作是有利的，哪些不是，因此，智能体尝试通过最大化获得的总奖励来找到最优策略。
评论模型（Critic Model）：评论模型是一种基于值迭代的方法，它在每个状态或动作上评估（或者"评论"）期望的未来奖励。评论者用来估计一个动作或状态的长期价值，通常在演员-评论者模型（Actor-Critic Models）中使用，演员选择动作，评论者评估动作。

两者的主要区别在于，奖励模型直接反映了每个动作的即时反馈，而评论模型是对未来奖励的一个预测或估计，关注的是长期价值，通常基于数学期望来进行评估。

一、RLHF对齐

1. 训练奖励模型和RL

用奖励模型训练sft模型，生成模型使用奖励或惩罚来更新策略，以便生成更高质量、符合人类偏好的文本。

	奖励模型	RL强化学习
作用	（1）学习人类兴趣偏好，训练奖励模型。由于需要学习到偏好答案，训练语料中含有response_rejected不符合问题的答案。（2）奖励模型能够在RL强化学习阶段对多个答案进行打分排序。	根据奖励模型，训练之前的sft微调模型，RL强化学习阶段可以复用sft的数据集
训练语料	{‘question’: ‘土源性线虫感染的多发地区是哪里？’, ‘response_chosen’: ‘苏北地区；贵州省剑河县；西南贫困地区；桂东；江西省鄱阳湖区；江西省’, ‘response_rejected’: ‘在热带和亚热带地区的农村。’},	{‘qustion’:‘这是一个自然语言推理问题：\n前提：要继续做好扶贫工作,帮助贫困地区脱贫致富\n假设：中国有扶贫工作\n选项：矛盾，蕴含，中立’ ‘answer’:‘蕴含。因为前提中提到了要继续做好扶贫工作，这表明中国存在扶贫工作。因此，前提蕴含了假设。’}

2. RLHF

RLHF（reinforcement learning from human feedback）
在这里插入图片描述

分为三个步骤
- step1 我做你看：有监督学习，从训练集中挑出一批prompt，人工对prompt写答案。其实就是构造sft数据集进行微调。
- step2 你做我看：奖励模型训练，这次不人工写答案了，而是让GPT或其他大模型给出几个候选答案，人工对其质量排序，Reward model学习一个打分器；这个让机器学习人类偏好的过程就是【对齐】，但可能会导致胡说八道，可以通过KL Divergence等方法解决。
  - instructGPT中奖励模型的损失函数如下，其中 rθ(x,y) 是奖励模型对提示x和完成y的标量输出，具有参数θ， $y_w$ 是 $y_w$ 和 $y_l$ 中更受欢迎的补全，D是人类比较的数据集。 $\operatorname{loss}(\theta)=-\frac{1}{\left(\begin{array}{c} K \\ 2 \end{array}\right)} E_{\left(x, y_w, y_l\right) \sim D}\left[\log \left(\sigma\left(r_\theta\left(x, y_w\right)-r_\theta\left(x, y_l\right)\right)\right)\right]$
  - 每个样本包括question、response_chosen、response_rejected键值对，每对样本的loss定义： $\mathcal{L}(\psi)=\log \sigma\left(r\left(x, y_w\right)-r\left(x, y_l\right)\right)$
    - 其中上面的符号： $\sigma$ 是 sigmoid 函数, $r$ 代表参数为 $\psi$ 的奖励模型的值, $r (x, y)$ 表示针对输入提示 $x$ 和输出 $y$ 所预测出的单一标量奖励值。
    - 上面是instructGPT的ranking loss，但是llama2中增加一个离散函数 $m (r)$

在这里插入图片描述

step3 自学成才：PPO训练，利用第二阶段的奖励模型RM计算奖励分数，同时使用PPO（近端策略优化）更新第一步训练得到的sft模型，最大优化该目标函数： $\begin{aligned} \text { objective }(\phi)= & E_{(x, y) \sim D_{\pi_\phi^{\mathrm{RL}}}}\left[r_\theta(x, y)-\beta \log \left(\pi_\phi^{\mathrm{RL}}(y \mid x) / \pi^{\mathrm{SFT}}(y \mid x)\right)\right]+ \\ & \gamma E_{x \sim D_{\text {pretrain }}}\left[\log \left(\pi_\phi^{\mathrm{RL}}(x)\right)\right] \end{aligned}$
- $π^{RL}_φ$ 是学习到的RL策略，
- $π^{SFT}$ 是监督训练模型，
- $D_pretrain$ 是预训练分布。
- KL奖励系数β和预训练损失系数γ分别控制KL惩罚和预训练梯度的强度。对于“PPO”模型，γ 设为 0。

在这里插入图片描述

3. 常见的公开偏好数据集

源自《Llama 2: Open Foundation and Fine-Tuned Chat Models》Table 6：
在这里插入图片描述
如：https://huggingface.co/datasets/lvwerra/stack-exchange-paired

二、PPO近端策略优化

1. PPO介绍

思想：保证策略改进同时，通过一些约束来控制策略更新的幅度；在每次迭代中，通过采样多个轨迹数据来更新策略：
- 使用当前策略对环境交互，收集多个轨迹数据
- 利用第一步的轨迹数据计算当前策略和旧策略之间的KL散度，通过控制KL散度大小来限制策略更新的幅度
- 使用优化器对策略进行更新，使其更加接近当前的样本策略

在这里插入图片描述

近端策略优化PPO涉及到四个模型：
- （1）策略模型（Policy Model），生成模型回复。
- （2）奖励模型（Reward Model），输出奖励分数来评估回复质量的好坏。
- （3）评论模型（Critic Model/value model），来预测回复的好坏，可以在训练过程中实时调整模型，选择对未来累积收益最大的行为。
- （4）参考模型（Reference Model）提供了一个 SFT 模型的备份，帮助模型不会出现过于极端的变化。
近端策略优化PPO的实施流程如下：
- 环境采样：策略模型基于给定输入生成一系列的回复，奖励模型则对这些回复进行打分获得奖励。
- 优势估计：利用评论模型预测生成回复的未来累积奖励，并借助广义优势估计（Generalized Advantage Estimation，GAE）算法来估计优势函数，能够有助于更准确地评估每次行动的好处。
  - GAE：基于优势函数加权估计的GAE可以减少策略梯度估计方差
- 优化调整：使用优势函数来优化和调整策略模型，同时利用参考模型确保更新的策略不会有太大的变化，从而维持模型的稳定性。

在这里插入图片描述

相关强化学习概念对应：
- Policy：现有LLM接受输入，进行输出的过程。
- State：当前生成的文本序列。
- Action Space：即vocab，也就是从vocab中选取一个作为本次生成的token。
KL散度（Kullback-Leibler Divergence），可以衡量两个概率分布之间的差异程度。在 PPO 算法中，KL 散度（Kullback-Leibler Divergence）的计算公式如下：
$KL(π_old || π_new) = ∑i π_old(i) log(π_old(i) / π_new(i))$
- 其中，π_old 表示旧的策略，π_new 表示当前的样本策略。KL 散度的含义是用 π_old 的分布对 π_new 的分布进行加权，然后计算两个分布之间的差异程度。
- 具体来说，KL 散度的计算方法是首先计算 π_old(i) / π_new(i) 的比值，然后对其取对数并乘以 π_old(i) 来进行加权。最后将所有加权后的结果相加，即可得到 KL 散度的值。这里的KL散度值是一个【惩罚项】，即经过RL训练后模型和SFT后模型的KL散度（繁殖两个模型偏差太多，导致模型效果下降，RLHF的主要目的是alignment）。

注意：KL 散度是一个非对称的度量，即 KL(π_old || π_new) 与 KL(π_new || π_old) 的值可能不相等。在 PPO 算法中，我们通常使用 KL(π_old || π_new) 来控制策略更新的幅度，因为 KL(π_old || π_new) 的值通常比 KL(π_new || π_old) 更容易控制，并且更能够反映出策略改变的方向。

2. PPO效果

在instructGPT论文实验中，效果最好的是GPT-3 + supervised finetuning + RLHF的模型：
在这里插入图片描述

三、Llama2中的RLHF

1. 两个奖励模型

核心一：两个奖励模型。Llama-2-chat 遵循与 InstructGPT 的 RLHF 第 1 步相同的基于指令数据的监督式微调步骤。然而，在 RLHF 第 2 步，Llama-2-chat 是创建两个奖励模型，而不是一个（因为有用性、安全性某种程度上是对立关系）。
- 一个是基于有用性
- 一个是基于安全性

在这里插入图片描述

2. 拒绝采样步骤

核心二：拒绝采样（rejection sampling）。Llama-2-chat 模型会经历多个演进阶段，奖励模型也会根据 Llama-2-chat 中涌现的错误而获得更新。它还有一个额外的拒绝采样步骤。即有多个输出，选择奖励函数值最高的一个用于梯度更新。即用RM筛选出当前模型最好的结果进行sft。实验中是将llama2-chat迭代了5轮（前4轮采用拒绝采样，最后一轮使用PPO）。
- 拒绝采样：是蒙特卡洛方法的一种
- 下图：左边是llama2的reward model，右边是gpt4进行judge；都是基于llama2-chat模型进行微调或PPO。

参考维基百科：https://en.wikipedia.org/wiki/Rejection_sampling

四、RLHF的替代技术

（一）DPO直接偏好优化

1. DPO模型

论文：《Direct Preference Optimization: Your Language Model is Secretly a Reward Model 》
论文地址：https://arxiv.org/abs/2305.18290
背景：RLHF是一个复杂、不稳定、难训练的过程（用reward model进行ppo强化学习等），而DPO可以避开训练奖励模型这个步骤，直接对排序数据集进行直接偏好学习。将对奖励函数的损失转为对策略的损失，优化和RLHF相同的目标函数（KL散度限制下，最大化reward）。
- 相关原理：和RRHF相似，但带有一个sft模型约束（KL散度），保证不加sft Loss情况下训练不崩溃。原本基于RL的目标，现在通过BCE二元交叉熵来优化（不需要再训练期间明确学习奖励函数or从策略中采样）。
- 有监督损失函数，DPO优化的目标函数: $\max _{\pi_\theta} \mathbb{E}_{\pi_\theta(y \mid x)}[\underbrace{r_\phi(x, y)-\beta \log \sum_y \pi_{\mathrm{ref}} \exp \left(\frac{1}{\beta} r_\phi(x, y)\right)}_{f\left(r_\phi, \pi_{\mathrm{ref}}, \beta\right)}-\underbrace{\beta \log \frac{\pi_\theta(y \mid x)}{\pi_{\mathrm{ref}}(y \mid x)}}_{\mathrm{KL}}]$
- DPO更新参数，目标函数： $\mathcal{L}_{\mathrm{DPO}}\left(\pi_\theta ; \pi_{\mathrm{ref}}\right)=-\mathbb{E}_{\left(x, y_w, y_l\right) \sim \mathcal{D}}\left[\log \sigma\left(\beta \log \frac{\pi_\theta\left(y_w \mid x\right)}{\pi_{\mathrm{ref}}\left(y_w \mid x\right)}-\beta \log \frac{\pi_\theta\left(y_l \mid x\right)}{\pi_{\mathrm{ref}}\left(y_l \mid x\right)}\right)\right]$
  - 注意：奖励函数 $r$ 和策略 $π$ 的关系推倒出来后，就能把ranking loss中的奖励函数 $r$ 替换
  - 目标函数含义：如果是好答案，则尽可能增大被policy策略模型生成的概率
- 对上面的目标函数的梯度： $\begin{aligned} & \nabla_\theta \mathcal{L}_{\mathrm{DPO}}\left(\pi_\theta ; \pi_{\mathrm{ref}}\right)= \\ & -\beta \mathbb{E}_{\left(x, y_w, y_l\right) \sim \mathcal{D}}[\underbrace{\sigma\left(\hat{r}_\theta\left(x, y_l\right)-\hat{r}_\theta\left(x, y_w\right)\right)}_{\text {higher weight when reward estimate is wrong }}[\underbrace{\nabla_\theta \log \pi\left(y_w \mid x\right)}_{\text {increase likelihood of } y_w}-\underbrace{\nabla_\theta \log \pi\left(y_l \mid x\right)}_{\text {decrease likelihood of } y_l}]], \end{aligned}$
启发思想：利用chatglm6b、s66b依次得到差一点的target、好一点的target的排序数据集，在这个排序数据集上对sft model直接进行dpo直接偏好学习，比直接rlhf更方便训练（绕过训练reward model的步骤）

# 数据样例
{"question": "我的女儿快两岁了好动是怎么回事，我的女儿快两岁了，还不会坐的时候，当大人抱着坐时（90度），她会把两条腿抬起来使劲，绷直腿和脚尖，累了就放下来歇一下，然后再绷，表情专注还会累得出汗，当时人们说是孩子长身体呢，没有在意。", 
"response_chosen": "你好，有的孩子可能会有些小问题，但是大多数孩子是无大碍的，因为这个年龄段正是孩子好动的年龄段，而且每个孩子的性格和秉性不一样，有的孩子天生就是活泼，但是也有极少数可能会有关，至于出汗多，晚上睡眠出汗多，那可能是缺乏钙或其它营养元素。可以给宝宝进行一下和缺钙有关的检查，微量元素和血铅镉化验也很重要。", 
"response_rejected": "这个现象可能是由于婴儿发育过程中的骨骼生长造成的。"}

结果：在 RLHF 用于拟合奖励模型的交叉熵损失也可用于直接微调 LLM。根据他们的基准测试，使用 DPO 的效率更高，而且在响应质量方面也通常优于 RLHF/PPO。

在这里插入图片描述

2. DPO实验

实验：

论文中的实验：探索DPO在参考策略中权衡奖励最大化和 KL-divergence 最小化的效率；并且评估DPO在更大模型和更困难的 RLHF 任务 (包括摘要和对话) 上的性能
我的简单实验：直接使用bloomz-560m模型（预训练权重选择Bloom-560m（pretrain），不是Bloomz-560m（pretrain+ft on xP3）），不需要reward_model，使用dpo直接偏好优化，loss如下图，仅100条偏好数据集就能较好收敛。

在这里插入图片描述

可以使用trl库中的DPOTrainer库：
- 数据：准备排序数据集（我在bloom模型上实验是用的100条公开数据集）
- 原本基于RL的目标，现在通过BCE二元交叉熵来优化
- 有监督损失函数，DPO优化的目标函数: $\max _{\pi_\theta} \mathbb{E}_{\pi_\theta(y \mid x)}[\underbrace{r_\phi(x, y)-\beta \log \sum_y \pi_{\mathrm{ref}} \exp \left(\frac{1}{\beta} r_\phi(x, y)\right)}_{f\left(r_\phi, \pi_{\mathrm{ref}}, \beta\right)}-\underbrace{\beta \log \frac{\pi_\theta(y \mid x)}{\pi_{\mathrm{ref}}(y \mid x)}}_{\mathrm{KL}}]$

实验结果分析：
（1）文中在多个数据集任务上进行对比实验（下图）：

使用偏好数据集 $\mathcal{D}=\left\{x^{(i)}, y_w^{(i)}, y_l^{(i)}\right\}_{i=1}^N$
左图（情感分类任务）：在sentiment generation任务中，在所有的KL散度下，DPO都取得了最大的reward；
右图（文本摘要任务）：在DR summarization任务中，DPO也超过PPO（使用了GPT4进行评估），并且在不同的temperature下，鲁棒性也更好。

在这里插入图片描述

（2）结果分析（下图）：

左图：在单轮对话任务中，采用GPT-4计算win rate，DPO在temperature=0.75-1.00时，均取得了最好的win rate
右图：DPO在训练过程中，表现出了较快的收敛速度，训练较为平稳；在不同temperature（实验分别取0.7和1.0）时DPO的胜率都是接近的，证明了DPO的可靠性。

在这里插入图片描述

3. 微软的PPO实践

论文：Contrastive Post-training Large Language Models on Data Curriculum
链接：https://arxiv.org/abs/2310.02263

核心：考虑到排序数据成本，他们直接默认GPT4 > ChatGPT > InstructGPT的效果顺序构造排序数据集，实验后得到以下结论：
（1）用DPO在 GPT4 vs InstructGPT 上训练的效果 > 直接在GPT-4数据精调的效果
（2）先在简单的pair上训练后，再在困难的pair上训练会有更好的效果

实验细节：
（1）训练参数：

model：llama-7b
deepspeed zero-3
temp=0.1

（2）实验结果：

排序数据集使用GPT-4 vs. InstructGPT作为pair时效果最好（因为大部分gpt4生成的target都好于后者）
用sft model训练DPO，比llama base model直接进行DPO效果好

在这里插入图片描述

4. DPO、PPO、BPO区别

BPO实验结果：在 VicunaEval 上使用 GPT-4 进行自动评估，BPO 能够大幅提升 ChatGPT、Claude 等模型的人类偏好，并助力 llama2-13b 模型大幅超过 llama2-70b 的版本。

在这里插入图片描述

（二）RLAIF模型

谷歌-RLAIF：Scaling Reinforcement Learning from Human Feedbak with AI Feadback
论文地址：https://arxiv.org/abs/2309.00267

[图片]

核心：之前的是RLHF，这里将H（human）替换为AI给予reward；在Constitutional AI中就提出过RLAIF了（通过混合使用人类与AI偏好，组合Constitutional AI自我修正技术）；deepmind贡献则是做实验比较RLAIF和RLHF在文本摘要任务的表现。
解决的问题：收集高质量人类偏好标签的瓶颈问题。在 RLHF 中用于训练奖励模型的评分并不一定非要由人类提供，也可以使用 LLM（这里是 PaLM 2）生成。在人类评估者看来，用传统 RLHF 方法和 RLAIF 方法训练的模型得到的结果都差不多。

实验过程：
（1）通过LLM（实验直接使用了PaLM）对两个target按照一定的prompt确定所偏好的target（对应的prompt如下，few-shot）：
在这里插入图片描述

（2）实验细节：

position bias：将两个target调换位置再判断一次，最后结果求平均值（经过LLM后得到的是target1和target2的概率）
实验细节：labeling preference LLM=PaLM 2；temp=0，top-k的k=40
RL：使用reward model进行RL，RL没有使用复杂的PPO，而是使用更简单的A2C（Actor Critic）进行RL。

（3）实验结果：

证明AI反馈的有效性，当比较RLAIF和RLHF摘要时，人类对两者都表示出相同的偏好。这意味着使用AI反馈进行训练可以达到与使用人类反馈相似的性能，从而为RLHF的可扩展性问题提供了一个潜在的解决方案
提供一个潜在的替代方案：RLAIF使用现成的LLM来标记偏好，而不是依赖人类。研究发现，RLAIF和RLHF在改进方面产生了类似的结果。具体来说，对于摘要任务，人类评估者在大约70%的情况下更喜欢RLAIF和RLHF的输出，而不是基线的有监督微调模型。
3个评测指标：AI Labeler Alignment、Pairwise Accuracy、WinRate

在这里插入图片描述

（三）ReST模型

论文：《Reinforced Self-Training (ReST) for Language Modeling》谷歌 deepmind
论文地址：https://arxiv.org/abs/2308.08998

核心：在之前人类对序列的偏好是使用学得的奖励函数来建模的。ReST 算法将典型 RL pipeline 的数据集增长（Grow）和策略改进（Improve）解耦成两个单独的离线阶段。避免了在线RL方法计算成本高、易受到攻击的问题

ReST优势：

与在线 RL 相比，ReST 由于在 Improve step 中利用了 Grow step 的输出，因此计算负担大大减少；
策略的质量不在受原始数据集质量的限制（如离线 RL），因为新的训练数据是从 Grow step 中经过采样得到的；
检查数据质量并判断对齐变得更加容易，因为 Improve step 和 Grow step 这两个过程是解耦的；
ReST 简单、稳定，并且只有少量的超参数需要调优。

在这里插入图片描述

ReST能用于对齐 LLM 与人类偏好。ReST 使用一种采样方法来创建一个改进版数据集，然后在质量越来越高的子集上不断迭代训练，从而实现对奖励函数的微调。
ReST 的效率高于标准的在线 RLHF 方法（比如使用 PPO 的 RLHF），因为其能以离线方式生成训练数据集，但他们并未全面地比较这种方法与 InstructGPT 和 Llama 2 等中使用的标准 RLHF PPO 方法。

算法过程：
在这里插入图片描述

（四）Constitutional AI

论文：《Constitutional AI: Harmlessness from AI Feedback》
链接：https://arxiv.org/abs/2212.08073
在这里插入图片描述

（五）RRHF模型

RRHF（Rank Responses to align Human Feedback）
论文：RRHF: Rank Responses to Align Language Models with Human Feedback without tears 阿里、清华 NeurIPS 2023
链接：https://arxiv.org/pdf/2304.05302.pdf
核心：在RM数据上优化LM，让chosen回答的概率大于rejected回答的概率。在计算句子的条件概率后加上一个ranking loss

在这里插入图片描述

（2）数据实验：尝试了不同的数据采样策略：

直接用开源RM的数据
用自己的模型生成response，用开源RM进行排序，做出新的RM数据
循环执行2，类似强化的思维不断靠自身采样到更好的答案

最后的结论也比较符合直接，是3>2>1。

（六）ReMax模型

论文：ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models 香港大学

核心：RL难点，将多步后的最终目标转为模型loss。传统RL中可能会导致学习不稳定，所以PPO中使用Actor-Critic网络（引入一个助教给模型的每一步打分）。作者提出用强化中的REINFORCE算法来代替PPO，去掉了Critic模型，但作者在实验中同样发现了梯度方差较大优化不稳定的问题，于是增加了一项bias来降低方差。

在这里插入图片描述
实验效果：经过ReMax的1.3b模型超过了只经过sft的llama2-7b模型。

（七）RSO模型

论文：Statistical rejection sampling improves preference optimization

Reference

[1] Rafael Rafailov, Archit Sharma, Eric Mitchell, StefanoErmon, Christopher D Manning, and Chelsea Finn.2023. Direct preference optimization: Your language model is secretly a reward model.arXiv preprintarXiv:2305.18290
[2] DPO(Direct Preference Optimization):LLM的直接偏好优化. 笔记
[3] https://github.com/LAION-AI/Open-Assistant/discussions/3347
[4] DPO——RLHF 的替代之《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》论文阅读
[5] RL AIF细节分享&个人想法
[6] RLHF中的PPO算法原理及其实现
[7] InstructGPT pairwise logloss: https://arxiv.org/abs/2203.02155
[8] DPO：Direct Preference Optimization: Your Language Model is Secretly a Reward Model
[9] RLAIF：Scaling Reinforcement Learning from Human Feedbak with AI Feadback
[10] BPO：灵活的 Prompt 对齐优化技术
[11] LLM成功不可或缺的基石：RLHF及其替代技术
[12] Reinforced Self-Training (ReST) for Language Modeling 翻译
[13] 大规模语言模型人类反馈对齐–RL AIF
[14] 谷歌团队提出用AI反馈强化学习 (RLAIF) ，替代人类进行偏好标注，这会对 AI研究产生什么影响
[15] 大规模语言模型从理论到实践.第六章.复旦大学
[16] A Survey of Large Language Models.人大综述
[17] LLM Training: RLHF and Its Alternatives. SEBASTIAN RASCHKA, PHD
[18] Llama 2: Open Foundation and Fine-Tuned Chat Models：https://huggingface.co/papers/2307.09288#64c6961115bd12e5798b9e3f
[19] spinningup中文文档：https://spinningup.qiwihui.com/zh_CN/latest/
[20] RLHF中的「RL」是必需的吗？有人用二进制交叉熵直接微调LLM，效果更好
[21] RLHF的替代算法之DPO原理解析：从RLHF、Claude的R AILF到DPO、Zephyr
[22] DPO: Direct Preference Optimization训练目标推导
[23] 强化学习极简入门：通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO
[24] KL-Divergence详解
[25] ChatGPT调研报告.哈工大实验室HIT-NLP
[26] 多 Agent 深度强化学习综述.《自动化学报》
[27] 一些RLHF的平替汇总
[28] Contrastive Post-training Large Language Models on Data Curriculum: https://arxiv.org/abs/2310.02263
[29] 理解Rejection Sampling: https://gaolei786.github.io/statistics/reject.html
[30] DeepMind新研究：ReST让大模型与人类偏好对齐，比在线RLHF更有效
[31] 影响PPO算法性能的10个关键技巧（附PPO算法简洁Pytorch实现）
[32] 论文阅读-MOSS-RLHF：PPO
[33] https://github.com/GanjinZero/RRHF
[34] 论文阅读-MOSS-RLHF：PPO
[35] https://github.com/OpenLMLab/MOSS-RLHF
[36] 添加链接描述影响PPO算法性能的10个关键技巧（附PPO算法简洁Pytorch实现）
[37] DPO——RLHF 的替代之《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》论文阅读
[38] Llama 2：开源RHLF微调对话模型
[39] Secrets of RLHF in Large Language Models Part I: PPO
[40] 大模型训练的一些坑点和判断.包包
[41] Fine-tuning Open AI GPT-3 using a custom reward model
[42] [NLP] LLM—＜训练中文LLama2(五)＞对SFT后的LLama2进行DPO训练
[43] 如何微调LLMs：DPO

基础：
[1] 强化学习极简入门：通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO
[2] “StackLLaMA”: 用 RLHF 训练 LLaMA 的手把手教程.huggingface
[3] ChatGPT的RLHF：AI时代的“调速器”，让 AI真正可用的关键
[4] 【他山之石】如何正确复现 Instruct GPT / RLHF?
[5] https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback
[7] Training language models to follow instructions with human feedback（2022）
[8] InstructGPT论文解读.李响
[9] ChatGPT训练三阶段与RLHF的威力.oneflow

在 InstructGPT 论文之前的这四篇论文中找到PPO的相关数学细节：
(1) 《Asynchronous Methods for Deep Reinforcement Learning》引入了策略梯度方法来替代基于深度学习的强化学习中的 Q 学习。
(2) 《Proximal Policy Optimization Algorithms》提出了一种基于修改版近端策略的强化学习流程，其数据效率和可扩展性均优于上面的基础版策略优化算法。
(3) 《Fine-Tuning Language Models from Human Preferences》阐释了 PPO 的概念以及对预训练语言模型的奖励学习，包括 KL 正则化，以防止策略偏离自然语言太远。
(4) 《Learning to Summarize from Human Feedback》引入了现在常用的 RLHF 三步流程，后来的 InstructGPT 论文也使用了该流程。