首页:https://qingkeai.online
原文:https://mp.weixin.qq.com/s/sfjw4nr0KeGUxjyVf216vQ

在这里插入图片描述

论文:The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
链接:https://arxiv.org/abs/2509.02547
代码:https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers

这篇论文主要调研作用于LLM的Agentic Reinforcement Learning(LLM Agentic RL)如何以POMDP形式化框架将大型语言模型从静态文本生成器转化为可在动态环境中自主决策、持续演化的智能体。

在这里插入图片描述

通过把Planning、Tool-use、Memory、Reasoning、Self-Improving与Perception等能力模块统一建模为可联合优化的策略,Agentic RL在搜索研究、代码生成、数学证明、GUI交互、视觉理解、具身操作与多智能体协作等任务域实现了超越传统RLHF的泛化与鲁棒性。

在这里插入图片描述

总体而言,Agentic RL正成为融合LLM、强化学习与复杂环境工程的下一代自主智能操作系统基座。

在这里插入图片描述

9月18日(周二)晚8点,青稞Talk 第78期,新加坡国立大学博士生张桂彬,将直播分享《从 LLM-RL 到 Agentic RL:如何让语言模型成为自主智能体》。

分享嘉宾

张桂彬是新加坡国立大学计算学院博士研究生,导师为颜水成教授,研究方向为Multi-Agent System,Agent Memory和Self-Evolving Agent,目前在NeurIPS、ICML、ICLR、KDD、TKDE等顶级会议/期刊发表论文十余篇。他发表了Graph for Agent系列工作,包括G-Designer【ICML 2025 Oral】,G-Safeguard【ACL 2025】,以及G-Memory。其他工作如MaAS【ICML 2025 Oral】,AgentPrune【ICLR 2025】也受到关注。

主题提纲

从 LLM-RL 到 Agentic RL:如何让语言模型成为自主智能体

1、为什么需要 Agentic RL?
2、统一理论框架:用 POMDP 把“LLM 当 policy”
3、基于 RL,Agentic LLM 与环境之间的动态交互过程
4、在复杂环境中的应用及未来研究探讨

直播时间

9月18日20:00 - 21:00

如何观看

Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行,欢迎交流

Logo

更多推荐