
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
华东师范大学联合阿里巴巴、合肥工业大学提出首个开放域知识编辑基准UniEdit,覆盖25个知识领域、31.1万条样本,被NeurIPS接收。该研究基于Wikidata构建大规模数据集,提出NMCS算法统一评估编辑的可靠性和泛化性。实验发现当前编辑方法虽能记住修改内容,但在多跳推理等复杂场景下泛化性不足,且社会科学领域编辑难度更大。UniEdit不仅推动模型编辑研究,还可应用于事实一致性检测、多跳推

华东师范大学联合阿里巴巴、合肥工业大学提出首个开放域知识编辑基准UniEdit,覆盖25个知识领域、31.1万条样本,被NeurIPS接收。该研究基于Wikidata构建大规模数据集,提出NMCS算法统一评估编辑的可靠性和泛化性。实验发现当前编辑方法虽能记住修改内容,但在多跳推理等复杂场景下泛化性不足,且社会科学领域编辑难度更大。UniEdit不仅推动模型编辑研究,还可应用于事实一致性检测、多跳推

Fast-dLLM v2 旨在通过高效块扩散架构突破大模型推理的速度瓶颈。

【青稞Talk第84期预告】11月1日10:00,清华大学博士生李昊展将在线分享《SimpleVLA-RL:简单可拓展的VLA强化学习训练》。报告将解读其提出的新型强化学习框架,包括VLA模型训练范式、SimpleVLA-RL架构设计及领域未来展望。该框架通过强化学习显著提升VLA模型的性能与泛化能力,相关论文已发表于arXiv。直播将在青稞社区视频号/B站同步进行,欢迎扫码报名参与。(注:VLA

摘要:大型语言模型(LLM)在强化学习阶段面临策略部署与更新不匹配的核心挑战,主要表现为训练-推理精度差异、MoE路由不稳定和异步训练时序偏差。信任域策略优化(TRPO)通过代理目标函数和KL散度约束有效控制策略偏离,确保训练稳定性。青稞社区将于12月20日举办直播,由研究科学家Yingru Li分享《TRPO重生:大模型时代的信任域策略优化》,探讨LLM特有的Off-Policy挑战及解决方案。

摘要:大型语言模型(LLM)在强化学习阶段面临策略部署与更新不匹配的核心挑战,主要表现为训练-推理精度差异、MoE路由不稳定和异步训练时序偏差。信任域策略优化(TRPO)通过代理目标函数和KL散度约束有效控制策略偏离,确保训练稳定性。青稞社区将于12月20日举办直播,由研究科学家Yingru Li分享《TRPO重生:大模型时代的信任域策略优化》,探讨LLM特有的Off-Policy挑战及解决方案。

本文介绍了面向流匹配VLA的强化学习后训练框架π_RL的研究工作。针对基于流匹配的视觉语言动作模型(VLA)在强化学习训练中面临的动作概率计算困难和探索不足问题,研究团队提出了两种创新解决方案:Flow Noise通过引入可学习噪声构建联合概率密度近似策略梯度;Flow SDE则采用双层马尔可夫决策过程耦合动作生成与环境交互。该框架有效解决了传统SFT方法存在的数据成本高、过拟合和性能上限问题,为

本文介绍了面向流匹配VLA的强化学习后训练框架π_RL的研究工作。针对基于流匹配的视觉语言动作模型(VLA)在强化学习训练中面临的动作概率计算困难和探索不足问题,研究团队提出了两种创新解决方案:Flow Noise通过引入可学习噪声构建联合概率密度近似策略梯度;Flow SDE则采用双层马尔可夫决策过程耦合动作生成与环境交互。该框架有效解决了传统SFT方法存在的数据成本高、过拟合和性能上限问题,为

北京大学博士生陈康将于12月6日分享《面向流匹配VLA的强化学习后训练框架》。研究提出Flow-Noise和Flow-SDE两种技术路线,解决了流式模型在强化学习中似然求解难题。Flow-Noise通过可学习噪声计算动作似然,Flow-SDE则将去噪转化为随机微分方程。该框架在LIBERO测试平台达到97%以上性能,在ManiSkill任务中成功率提升50%至90%。直播将在青稞社区视频号/B站同

本文探讨了大模型强化学习中"训推不一致"问题的核心矛盾——行为策略与参考策略的不匹配。作者梳理了11篇相关研究,涵盖算法优化(如Decoupled PPO、GSPO)、系统对齐(如VeRL框架)和模型改进(如MoE路由一致性)等多个层面。研究发现,在异步训练、硬件差异和MoE路由波动等因素影响下,行为策略与参考策略的偏差会显著影响训练稳定性。文章提出用"三策略TRPO








