
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
VeRL 框架中的奖励 (reward) 与奖励模型:从 PPO 配置到实现细节
从 PPO 微调大模型的配置入手,我们发现 VeRL 框架将奖励计算抽象为一套独立子系统,包含奖励模型 (RM)、规则函数、并行 Worker 等组件,在配置中通过 reward.* 前缀统一管理。奖励分为两类:函数型 (基于规则逻辑) 和模型型 (基于 RM)。
RAGEN 与 StarPO 框架:如何让 LLM 在多轮交互中自我进化?
RAGEN 关注 LLM 多轮(multi-turn)任务的强化学习微调,揭示了直接应用单轮 RL 算法的挑战。
非对称模态检索:京东 SMAR 在电商搜索中的创新实践
1. 使用多个任务训练多模态 embedding,2. 训练一个按需使用图片模态的“门控”模块。
VinePPO:基于蒙特卡洛采样的无偏 credit assignment 进行价值估计,提升大模型推理能力
VinePPO 利用 LLM 环境可重置的特性,使用蒙特卡洛采样,估计 PPO 的价值函数。
GiGPO:为 LLM 智能体注入细粒度信用分配,突破长视野决策瓶颈
简单的哈希表找到相同状态,将所有相同状态组成分组(group),并在组内计算优势(advantage),从而提供细粒度信用分配信号。
ArCHer:LLM 的高效分层强化学习框架,突破多轮决策瓶颈
使用分层 RL 思想,解决 multi-turn 的信用分配问题:在高层次,采用时序差分方法来训练语句级(utterance-leve)的价值函数,在低层上,采用 GRPO 等算法来优化 token 生成,而将高层价值函数视为该轮的终局奖励。
GiGPO:为 LLM 智能体注入细粒度信用分配,突破长视野决策瓶颈
简单的哈希表找到相同状态,将所有相同状态组成分组(group),并在组内计算优势(advantage),从而提供细粒度信用分配信号。
VinePPO:基于蒙特卡洛采样的无偏 credit assignment 进行价值估计,提升大模型推理能力
VinePPO 利用 LLM 环境可重置的特性,使用蒙特卡洛采样,估计 PPO 的价值函数。
到底了







