logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

NeurIPS 2025!阿里开源 UniEdit:首个大型开放域大模型知识编辑基准

华东师范大学联合阿里巴巴、合肥工业大学提出首个开放域知识编辑基准UniEdit,覆盖25个知识领域、31.1万条样本,被NeurIPS接收。该研究基于Wikidata构建大规模数据集,提出NMCS算法统一评估编辑的可靠性和泛化性。实验发现当前编辑方法虽能记住修改内容,但在多跳推理等复杂场景下泛化性不足,且社会科学领域编辑难度更大。UniEdit不仅推动模型编辑研究,还可应用于事实一致性检测、多跳推

文章图片
#人工智能
NeurIPS 2025!阿里开源 UniEdit:首个大型开放域大模型知识编辑基准

华东师范大学联合阿里巴巴、合肥工业大学提出首个开放域知识编辑基准UniEdit,覆盖25个知识领域、31.1万条样本,被NeurIPS接收。该研究基于Wikidata构建大规模数据集,提出NMCS算法统一评估编辑的可靠性和泛化性。实验发现当前编辑方法虽能记住修改内容,但在多跳推理等复杂场景下泛化性不足,且社会科学领域编辑难度更大。UniEdit不仅推动模型编辑研究,还可应用于事实一致性检测、多跳推

文章图片
#人工智能
Fast-dLLM v2:高效训练推理的块扩散大语言模型框架

Fast-dLLM v2 旨在通过高效块扩散架构突破大模型推理的速度瓶颈。

文章图片
#语言模型#人工智能#自然语言处理
周六上午10点!一起聊聊VLA强化学习训练框架:SimpleVLA-RL

【青稞Talk第84期预告】11月1日10:00,清华大学博士生李昊展将在线分享《SimpleVLA-RL:简单可拓展的VLA强化学习训练》。报告将解读其提出的新型强化学习框架,包括VLA模型训练范式、SimpleVLA-RL架构设计及领域未来展望。该框架通过强化学习显著提升VLA模型的性能与泛化能力,相关论文已发表于arXiv。直播将在青稞社区视频号/B站同步进行,欢迎扫码报名参与。(注:VLA

文章图片
#人工智能
如何解决RL阶段的Off-Policy问题?聊聊大模型时代的信任域策略优化TRPO

摘要:大型语言模型(LLM)在强化学习阶段面临策略部署与更新不匹配的核心挑战,主要表现为训练-推理精度差异、MoE路由不稳定和异步训练时序偏差。信任域策略优化(TRPO)通过代理目标函数和KL散度约束有效控制策略偏离,确保训练稳定性。青稞社区将于12月20日举办直播,由研究科学家Yingru Li分享《TRPO重生:大模型时代的信任域策略优化》,探讨LLM特有的Off-Policy挑战及解决方案。

文章图片
#人工智能
如何解决RL阶段的Off-Policy问题?聊聊大模型时代的信任域策略优化TRPO

摘要:大型语言模型(LLM)在强化学习阶段面临策略部署与更新不匹配的核心挑战,主要表现为训练-推理精度差异、MoE路由不稳定和异步训练时序偏差。信任域策略优化(TRPO)通过代理目标函数和KL散度约束有效控制策略偏离,确保训练稳定性。青稞社区将于12月20日举办直播,由研究科学家Yingru Li分享《TRPO重生:大模型时代的信任域策略优化》,探讨LLM特有的Off-Policy挑战及解决方案。

文章图片
#人工智能
引入线性注意力!一起探索图像视频扩散模型的高效设计与加速

本文介绍了面向流匹配VLA的强化学习后训练框架π_RL的研究工作。针对基于流匹配的视觉语言动作模型(VLA)在强化学习训练中面临的动作概率计算困难和探索不足问题,研究团队提出了两种创新解决方案:Flow Noise通过引入可学习噪声构建联合概率密度近似策略梯度;Flow SDE则采用双层马尔可夫决策过程耦合动作生成与环境交互。该框架有效解决了传统SFT方法存在的数据成本高、过拟合和性能上限问题,为

文章图片
#人工智能
VLA 的强化学习后训练框架π_RL详解

本文介绍了面向流匹配VLA的强化学习后训练框架π_RL的研究工作。针对基于流匹配的视觉语言动作模型(VLA)在强化学习训练中面临的动作概率计算困难和探索不足问题,研究团队提出了两种创新解决方案:Flow Noise通过引入可学习噪声构建联合概率密度近似策略梯度;Flow SDE则采用双层马尔可夫决策过程耦合动作生成与环境交互。该框架有效解决了传统SFT方法存在的数据成本高、过拟合和性能上限问题,为

文章图片
#人工智能
周六上午!一起聊聊π_RL,面向流匹配VLA模型的强化学习微调框架

北京大学博士生陈康将于12月6日分享《面向流匹配VLA的强化学习后训练框架》。研究提出Flow-Noise和Flow-SDE两种技术路线,解决了流式模型在强化学习中似然求解难题。Flow-Noise通过可学习噪声计算动作似然,Flow-SDE则将去噪转化为随机微分方程。该框架在LIBERO测试平台达到97%以上性能,在ManiSkill任务中成功率提升50%至90%。直播将在青稞社区视频号/B站同

文章图片
#人工智能
深度!从两策略到三策略:行为策略和参考策略不一致下的 TRPO 扩展

本文探讨了大模型强化学习中"训推不一致"问题的核心矛盾——行为策略与参考策略的不匹配。作者梳理了11篇相关研究,涵盖算法优化(如Decoupled PPO、GSPO)、系统对齐(如VeRL框架)和模型改进(如MoE路由一致性)等多个层面。研究发现,在异步训练、硬件差异和MoE路由波动等因素影响下,行为策略与参考策略的偏差会显著影响训练稳定性。文章提出用"三策略TRPO

文章图片
#人工智能#深度学习
    共 66 条
  • 1
  • 2
  • 3
  • 7
  • 请选择