
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
论文将语言生成过程建模为一个多步马尔可夫决策过程(MDP)。LLL和TTT分别是输入xx和 输出yy状态(Statestst在时间步ttt的状态由到目前为止生成的文本序列构成。例如,输入Promptxx0x1xL−1xx0x1...xL−1和已生成的序列yy0y1yt−1yy0y1...yt−1共同构成了当前的状态stx0L−1y0t−1stx。

论文提出了一个简洁而有效的框架——抽象链推理 (CoA),用于提升 LLM 在多步骤、工具依赖型推理任务中的表现。其核心思想是**通过引入抽象占位符,成功地将复杂的推理规划过程与耗时且易变的具体知识获取过程解耦**。

START模型贡献在于:证明了通过“提示”可以低成本、无须标注地激发LLM的工具使用潜能 (Hint-infer)。设计了一套有效的自学习框架 (Hint-RFT),能够将这种潜能转化为模型稳定、自主的能力。Hint-infer的巧妙之处在于它利用了LLM已有的潜在能力,通过极低的成本启动了工具学习的正反馈循环。这种“提示-推理-微调”的自学习范式,对于未来构建更强大、更可靠的AI系统具有重要的借

ZeroSearch 用 LLM 充当模拟环境的思想,不仅仅是一个降本增效的工程技巧,有更深远的意义。它将强化学习中的“环境”这一外部、不可控的元素,成功地内化为了一个内部、完全可控的组件。

WebDancer 给我们展示了一条颇具前景的道路:通过精心设计的数据合成策略和分阶段的训练范式(SFT+RL),我们可以从零开始构建出具备强大自主信息搜集能力的Web Agent。其核心贡献在于将“以数据为中心”和“分阶段训练”的理念成功应用于ReAct框架,为提升智能体在复杂真实环境中的决策与泛化能力,指明了一条清晰的路径。

这篇论文抓住了当前 LLM Agent 发展中的一个痛点:**如何在追求强大能力的同时,保证其行动的经济性和高效性**。通过提出 OTC-PO 框架和“工具生产力”这一新颖的评价指标,它为训练更“精打细算”的 LLM Agent 提供了一条清晰且有效的路径。其贡献不仅仅是技术层面的算法改进,更在于**理念上的转变**:从单纯追求“能做”,到追求“做得既好又巧”。研究结果表明,减少对外部工具的盲目依

全球AI市场预计将从2025年的3909.1亿美元增长到2030年的1.81175万亿美元,复合年增长率(CAGR)高达35.9%。AI智能体市场则展现出更为迅猛的增长势头,预计将从2025年的76.3亿美元飙升至2030年的503.1亿美元,复合年增长率达到45.8%。尽管AI的直接市场规模目前在全球GDP中占比尚小,但其对全球经济的间接贡献,尤其是在生产力提升和消费模式变革方面,预计将达到数万
MC-DML 成功地将 LLM 的语言智能与 MCTS 的规划能力相结合,通过引入动态记忆,赋予了 LLM 在文字游戏这类复杂、不确定环境中学习和适应的能力。核心思想——利用 LLM 的先验知识并辅以从经验中学习的动态记忆。

GiGPO 为解决 LLM 智能体在长时序任务中的信用分配难题提供了一个轻量级的方案。它通过巧妙的“组内组”设计,在不牺牲基于组的 RL 方法原有优势(高效、稳定、无 Critic)的前提下,成功地为长时序 LLM Agent 训练引入了细粒度的步级信用分配机制。其核心在于利用“锚状态”对已有轨迹进行再组织,从而在回合级宏观信号的基础上,增加了步级微观指导信号。

本文聚焦于单智能体式的**工具使用学习(Agentic Tool Use Learning)**,特别是以强化学习(RL)为核心的端到端范式。我们将系统剖析几项代表性工作,辨其思想,明其得失。我们的讨论**区别于主流基于提示词和软件工程构建的AI Agent**——其依赖大量人工设计的模块,而我们关注的是如何让模型通过与环境交互,**从经验中内生出规划与行动的能力**。








