MoonOutCloudBack 个人主页

MoonOutCloudBack

2025-04-04 15:29:36 加入 DevPress

简介

该用户还未填写简介

未填写擅长的技术栈

暂无可提供的服务

从 PPO 微调大模型的配置入手，我们发现 VeRL 框架将奖励计算抽象为一套独立子系统，包含奖励模型 (RM)、规则函数、并行 Worker 等组件，在配置中通过 reward.* 前缀统一管理。奖励分为两类：函数型 (基于规则逻辑) 和模型型 (基于 RM)。

RAGEN 关注 LLM 多轮（multi-turn）任务的强化学习微调，揭示了直接应用单轮 RL 算法的挑战。

1. 使用多个任务训练多模态 embedding，2. 训练一个按需使用图片模态的“门控”模块。

VinePPO 利用 LLM 环境可重置的特性，使用蒙特卡洛采样，估计 PPO 的价值函数。

简单的哈希表找到相同状态，将所有相同状态组成分组（group），并在组内计算优势（advantage），从而提供细粒度信用分配信号。

使用分层 RL 思想，解决 multi-turn 的信用分配问题：在高层次，采用时序差分方法来训练语句级（utterance-leve）的价值函数，在低层上，采用 GRPO 等算法来优化 token 生成，而将高层价值函数视为该轮的终局奖励。

简单的哈希表找到相同状态，将所有相同状态组成分组（group），并在组内计算优势（advantage），从而提供细粒度信用分配信号。

VinePPO 利用 LLM 环境可重置的特性，使用蒙特卡洛采样，估计 PPO 的价值函数。

到底了