青稞社区. 个人主页

@QingKeLab

青稞社区.

2024-08-23 10:37:16 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

小米大模型 Plus 团队提出BTL-UI：基于直觉-思考-关联的GUI Agent推理

小米大模型Plus团队提出"眨眼-思考-链接"(BTL)框架，模拟人类认知过程改进GUI智能体交互能力。该框架将交互分解为三个阶段：Blink快速定位界面元素，Think进行高级推理决策，Link生成可执行命令。团队还设计了BTL奖励机制，整合过程与结果监督，在ScreenSpot等基准测试中取得显著提升，7B模型定位准确率达89.1%，3B模型在AndroidControl-

#ui #人工智能

在看完近50篇 VLA+RL 工作之后......

本文对该领域的关键论文进行了分类整理，涵盖离线RL、在线RL、世界模型、推理时RL及对齐技术。

#经验分享

NeurIPS 2025！阿里开源 UniEdit：首个大型开放域大模型知识编辑基准

华东师范大学联合阿里巴巴、合肥工业大学提出首个开放域知识编辑基准UniEdit，覆盖25个知识领域、31.1万条样本，被NeurIPS接收。该研究基于Wikidata构建大规模数据集，提出NMCS算法统一评估编辑的可靠性和泛化性。实验发现当前编辑方法虽能记住修改内容，但在多跳推理等复杂场景下泛化性不足，且社会科学领域编辑难度更大。UniEdit不仅推动模型编辑研究，还可应用于事实一致性检测、多跳推

#人工智能

Fast-dLLM v2：高效训练推理的块扩散大语言模型框架

Fast-dLLM v2 旨在通过高效块扩散架构突破大模型推理的速度瓶颈。

#语言模型 #人工智能 #自然语言处理

周六上午10点！一起聊聊VLA强化学习训练框架：SimpleVLA-RL

【青稞Talk第84期预告】11月1日10:00，清华大学博士生李昊展将在线分享《SimpleVLA-RL：简单可拓展的VLA强化学习训练》。报告将解读其提出的新型强化学习框架，包括VLA模型训练范式、SimpleVLA-RL架构设计及领域未来展望。该框架通过强化学习显著提升VLA模型的性能与泛化能力，相关论文已发表于arXiv。直播将在青稞社区视频号/B站同步进行，欢迎扫码报名参与。（注：VLA

#人工智能

如何解决RL阶段的Off-Policy问题？聊聊大模型时代的信任域策略优化TRPO

摘要：大型语言模型(LLM)在强化学习阶段面临策略部署与更新不匹配的核心挑战，主要表现为训练-推理精度差异、MoE路由不稳定和异步训练时序偏差。信任域策略优化(TRPO)通过代理目标函数和KL散度约束有效控制策略偏离，确保训练稳定性。青稞社区将于12月20日举办直播，由研究科学家Yingru Li分享《TRPO重生：大模型时代的信任域策略优化》，探讨LLM特有的Off-Policy挑战及解决方案。

#人工智能

引入线性注意力！一起探索图像视频扩散模型的高效设计与加速

本文介绍了面向流匹配VLA的强化学习后训练框架π_RL的研究工作。针对基于流匹配的视觉语言动作模型(VLA)在强化学习训练中面临的动作概率计算困难和探索不足问题，研究团队提出了两种创新解决方案：Flow Noise通过引入可学习噪声构建联合概率密度近似策略梯度；Flow SDE则采用双层马尔可夫决策过程耦合动作生成与环境交互。该框架有效解决了传统SFT方法存在的数据成本高、过拟合和性能上限问题，为

#人工智能

VLA 的强化学习后训练框架π_RL详解

#人工智能

周六上午！一起聊聊π_RL，面向流匹配VLA模型的强化学习微调框架

北京大学博士生陈康将于12月6日分享《面向流匹配VLA的强化学习后训练框架》。研究提出Flow-Noise和Flow-SDE两种技术路线，解决了流式模型在强化学习中似然求解难题。Flow-Noise通过可学习噪声计算动作似然，Flow-SDE则将去噪转化为随机微分方程。该框架在LIBERO测试平台达到97%以上性能，在ManiSkill任务中成功率提升50%至90%。直播将在青稞社区视频号/B站同

#人工智能

深度！从两策略到三策略：行为策略和参考策略不一致下的 TRPO 扩展

本文探讨了大模型强化学习中"训推不一致"问题的核心矛盾——行为策略与参考策略的不匹配。作者梳理了11篇相关研究，涵盖算法优化（如Decoupled PPO、GSPO）、系统对齐（如VeRL框架）和模型改进（如MoE路由一致性）等多个层面。研究发现，在异步训练、硬件差异和MoE路由波动等因素影响下，行为策略与参考策略的偏差会显著影响训练稳定性。文章提出用"三策略TRPO

#人工智能 #深度学习

共 58 条

请选择