【论文阅读】LANGUAGE MODELS CAN LEARN FROM VERBAL FEEDBACK WITHOUT SCALAR REWARDS

大型语言模型通常通过来自人类或人工智能反馈的强化学习进行训练，然而这些方法往往将细致的反馈压缩为标量奖励，丢弃了其中丰富的信息并引发尺度失衡。我们建议将语言反馈视为一种条件信号。受文本到图像生成中语言先验的启发——该先验能通过未见提示产生新颖输出——我们提出反馈条件策略（FCP）。FCP 直接从回复-反馈对中学习，通过对离线数据的最大似然训练来近似反馈条件后验。我们进一步开发了一个在线自举阶段，在

MoyiTech

249人浏览 · 2025-10-09 15:34:38

MoyiTech · 2025-10-09 15:34:38 发布

语言模型能够从语言反馈中学习，而无需基于数值的奖励机制。

摘要

大型语言模型通常通过来自人类或人工智能反馈的强化学习进行训练，然而这些方法往往将细致的反馈压缩为标量奖励，丢弃了其中丰富的信息并引发尺度失衡。我们建议将语言反馈视为一种条件信号。受文本到图像生成中语言先验的启发——该先验能通过未见提示产生新颖输出——我们提出反馈条件策略（FCP）。FCP 直接从回复-反馈对中学习，通过对离线数据的最大似然训练来近似反馈条件后验。我们进一步开发了一个在线自举阶段，在该阶段中，策略在积极条件下生成回复并接收新的反馈以进行自我精修。这重新将反馈驱动的学习框架为条件生成而非奖励优化，为大型语言模型直接从语言反馈中学习提供了一种更具表现力的方式。

论文精读

Introduction

将语言反馈简化为标量奖励会带来若干局限：

**信息损失：**标量奖励捕获的信息远少于语言反馈/批评，且往往难以解释。例如，批评“回答冗余但正确”与“回答简洁但有很多拼写错误”都可能被映射为 0.8 的奖励，尽管它们描述了截然不同的回答模式。此外，（生成式）奖励模型生成的语言化思考通常作为中间输出被丢弃，仅保留最终标量用于强化学习训练。
**歧义性：**语言反馈，尤其是来自人类用户的反馈，往往混杂（同时包含优点与缺点）、带有情绪或不确定性，例如“我太开心了”或“我不确定，或许再试一次？”。这类反馈远比纯粹的正向或负向信号常见，并蕴含多样的学习线索以及对用户交互风格的理解。将这些反馈映射为标量可能含糊或武断。（感觉和信息损失属于一种）
**跨任务奖励尺度失衡：**在多任务训练（如数学、代码、科学、游戏）中，难以维持一致的奖励尺度。在简单数学题上获得正向反馈远比在具有挑战性的编程或游戏任务中容易，这导致不同领域间奖励失衡，并引入学习过程的偏差。（这是如何解决的？）

长期以来，标量化一直被视为不可避免，用于弥合语言反馈与强化学习所需的数值信号之间的鸿沟。然而，随着大规模语言预训练的兴起，这一观点正在被重新审视（Yao，2025）。大语言模型蕴含强大的常识和语言先验，这提示了一种新范式：将语言反馈视为头等训练信号，而非强行将其压缩为标量形式。

毕竟，大型语言模型已经表现出对口头反馈的隐含理解能力。在具身任务中，它们通过将人类用户、外部批评或工具调用的反馈提示整合进上下文，并据此迭代式地优化回答（Wang 等，2025b；Novikov 等，2025）。这表明 LLM 能够处理口头反馈，但仅是以隐含方式，通过一个潜藏的“mental model”，而并未把理解转化为显式的标量奖励。因此，关键问题在于如何将这些反馈提炼为训练信号，使其直接提升模型性能，而非在测试阶段依赖低效的多轮试错。

在这里插入图片描述

在训练了一个以任意反馈 c 为条件的离线 FCP πθ(o|x, c) ∝ πref(o|x) · penv(c|x, o) 之后，我们通过在线自举进一步提升其性能。具体而言，我们通过对行为策略 πθ(o|x, c+)（以正面反馈为目标的条件下）进行采样生成 rollout，并用来自 penv 的新反馈重新标注，从而迭代地强化策略。

我们的初步实验表明，FCP 在不依赖验证器、标量转换或数据过滤的情况下，能够匹配甚至超越诸如离线 RFT（Dong 等，2023）和在线 GRPO（Shao 等，2024）等强标量基线。这展示了一个简单且可扩展的框架，既保留了语言反馈的丰富性，又避免了基于规则验证器的稀缺性和 Reward Hacking 的风险。尽管我们当前的实现较为朴素，但先进的训练技术有望进一步提升 FCP 的性能。受篇幅限制，相关工作推迟至附录 B。

方法

传统的强化学习方法通过增加获得“良好”反馈的响应的权重，同时降低获得“不良”反馈的响应的权重来训练策略。从概率角度看，强化学习可被视为学习期望获得良好反馈（即高奖励）的响应的后验分布（Peters & Schaal, 2007；Peng et al., 2019；Rafailov et al., 2023）。区分何为良好或不良通常需要精心设计的奖励函数或详细的评分标准以生成标量信号，这导致了第1节中讨论的局限性。

方法受文本到图像生成中语言先验的启发，在该任务中，模型通过混合字幕组合未见提示（图4）。类似地，语言先验可使大语言模型吸收多样化的语言反馈，并产生超越标量强化的高质量响应（图1）。鉴于大语言模型已表现出隐式反馈理解，我们直接在其上进行训练：

先离线初始化一个反馈条件策略（FCP）（第2.1节）
再在线提升性能（第2.2节）。

离线训练：初始化反馈条件策略

我们首先定义一个参考策略模型 πref，该模型接收输入指令 x 并生成响应 o ∼ πref(·|x)。随后，响应 o 与环境进行单轮交互，环境提供语言反馈 c ∼ penv(·|x, o)。

参考策略 πref 可以表示基础模型、指令微调模型或推理模型，响应 o 可包含思维过程及最终答案。

环境 penv 可由人类用户或生成式奖励模型构成。

在离线设置中，响应由 πref 收集，我们定义响应-反馈对的联合分布为 Poff(o, c|x) ≜ πref(o|x) · penv(c|x, o)，并由此导出反馈条件下的后验分布：

在这里插入图片描述

令 c+ 表示纯粹的正面反馈，c− 表示纯粹的负面反馈。混合反馈可近似表示为 c = (c+, c−)，而中性或不确定的反馈可能两者都不是。例如，若我们以正面反馈 c+ 为条件，针对编码指令 x 的反馈为“生成的代码在功能上正确、高效且简洁”，则 Poff(o|x, c+) ∝ πref(o|x) · penv(c+|x, o)，该式倾向于选择更有可能引发正面反馈的响应 o。

在环境提供可验证奖励的特殊情况下，即对于正确响应 o+ 有 penv(c+|x, o+) = 1，对于错误响应 o− 有 penv(c+|x, o−) = 0，我们可以证明 Poff(o|x, c+) 退化为一个无 KL 正则化的 0-1 二值奖励最大化问题的最优解：

在这里插入图片描述

另一种学习目标。在更一般的场景中，特别是当反馈来自人类用户时，求解公式（2）通常是难以处理的。这是因为我们只能从 penv 中进行采样，而无法精确计算对数似然 log penv(c+|x, o)。注意，公式（2）中的目标等价于最小化 π(o|x, c+) 与 Poff(o|x, c+) 之间的逆KL散度：

在这里插入图片描述

具体而言，我们提出通过最小化πθ(o|x, c)与Poff(o|x, c)之间关于o的期望前向KL散度，来学习一个反馈条件策略（FCP）πθ(o|x, c)：

在这里插入图片描述

**注释二：FCP 作为逆向动力学。我们注意到，本文在公式 (3) 中的 FCP 学习与逆向动力学建模一致（Brandfonbrener 等，2023），这与将监督微调（SFT）**视为行为克隆、批判微调（CFT）（Wang 等，2025a）视为正向动力学的观点相辅相成。该类比的详细讨论见附录 A.2。

在这里插入图片描述

在线训练：通过正向反馈条件化进行自举

我们将通过求解公式(3)中的离线问题得到的模型记为πθoff(o|x, c)，该模型能够根据任意用户定义的反馈c生成响应。基于此模型，我们进一步进行在线训练，通过显式地以正向反馈c+为条件来提升性能。具体而言，我们使用来自πθt(o|x, c+)的 rollout 迭代更新参数θt+1，其中t ∈ N，且θ0 = θoff由离线解初始化，如算法2所述。

在这里插入图片描述

基于θt（梯度在θt处停止）更新θt+1的优化目标是：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

直觉上，在每一轮训练t中（不同于轮次内进行的第s步梯度更新），当前模型πθt以c+为条件采样候选的正面响应。然后，这些响应由环境重新标注新的反馈c。通过连续多轮训练，**模型学习识别那些以c+为条件却未能产生正面评价的情况，同时强化那些与预期反馈一致的响应。**这一迭代过程实现了模型的自我引导，逐步增强与用户指定的正面反馈的对齐程度。此外，根据Lanchantin等（2025）的方法，轮次之间的梯度步数S可以灵活调整，从而使该方法能够在完全在线与半在线训练之间进行插值。

在这里插入图片描述

北京朝阳AI社区

更多推荐

二、制造业大模型存储系统优化：Ceph三级存储池的分层设计与数据访问加速实践

本文针对制造业大模型落地中的存储挑战，提出基于Ceph的"三级存储池"解决方案。该方案通过高性能存储池（NVMe SSD）、容量型存储池（SATA SSD）和归档存储池（HDD）的分层设计，适配训练、预处理、归档等不同阶段的数据需求。结合二级缓存、数据预加载、类型化优化等手段，某制造企业实现了数据加载时间降低83%、存储成本下降65%的显著效果。建议企业在实施时注重数据特性分析

北京朝阳AI社区

四、混合云算力调度：本地集群与公有云（阿里云）弹性扩展的无缝协同与资源统一管理

摘要：本文探讨大模型算力建设中混合云架构的优化方案，解决传统“本地+云”模式的管理割裂、数据协同难、调度低效等问题。通过构建统一管理平面（Kubernetes联邦）、安全数据链路（专线+分层访问）、一致运行环境（容器镜像同步），实现本地与云资源的无缝协同。智能调度策略结合自动/手动触发机制、任务分层优先级和成本管控（预算限制、计费优化），提升资源利用率与响应效率。实践表明，该方案可将运维效率提升

北京朝阳AI社区

六、制造业数据处理流水线：多源数据（ERP/MES/设备日志）接入、清洗规则与行业专属数据增强策略

摘要：制造业大模型开发面临数据分散、质量差、标注少三大挑战。本文提出“统一接入层+场景化适配器”架构，高效整合ERP、MES等多源数据，并针对结构化、时序、文本、图像数据设计行业化清洗规则，如空值补全、噪声过滤、术语标准化等。通过自动化预处理和领域知识融合，构建适配制造业特点的数据流水线，为大模型训练提供高质量输入，解决传统方法效率低、适配差的问题。