
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
同时,以太坊合并和Layer 2的成熟,为下一轮增长奠定了更坚实和可扩展的技术基础。在比特币诞生之前,有一群被称为“密码朋克”的密码学家、程序员和隐私倡导者,他们梦想着用密码学来创造一个更自由、更私密的数字世界。随着主链拥堵问题日益突出,以Arbitrum、Optimism为代表的Layer 2解决方案获得了大规模采用,承载了大量交易和应用生态,开启了以太坊的模块化时代。在宏观经济紧缩和一系列行业
RAGEN这篇论文为理解和训练**多轮交互LLM智能体**提供了一个立足点。它深入剖析了这一现有**RL算法**范式下的**核心挑战**——**训练不稳定性**,并提出了一个**以数据为中心**的有效解决方案。

ReTool 设计并实现了一个有效且高效的工程框架,它系统性地解决了“如何教 LLM 使用工具”这一核心问题。

QwenLong-L1 框架是长上下文大型推理模型发展的一个重要进展。它**首次系统地提出并验证了一套完整的、从短上下文到长上下文的RL适配方案**,有效解决了长上下文RL训练中的效率和稳定性两大核心痛点。

ToRL 框架成功地展示了直接**从基础大语言模型**开始,通过**强化学习**来规模化训练其**集成和使用外部工具**的能力是**可行且高效**的。与依赖监督微调的方法不同,ToRL 允许模型通过自主探索来发现更优的工具使用策略,这不仅带来了显著的性能提升(尤其在复杂的数学推理任务上),更重要的是**催生了多种此前未被明确指导的、更高级的认知行为**,如战略性工具调用、对无效代码生成的自我调节、

Decision Transformer (DT) 标志着强化学习领域一个转变:**将传统的试错与价值迭代过程,重塑为一个序列建模问题**。它摒弃了显式的策略学习或价值函数拟合,转而利用 Transformer 序列模式识别能力,直接从离线数据中学习“在何种期望回报下,给定历史状态与动作,未来应该采取什么动作”。

本文提出了一种名为Reflexion的框架,旨在解决大型语言模型 (LLM) 在作为智能体 (Agent) 执行任务时,难以通过传统的强化学习 (RL) 方法进行快速、低成本学习的问题。Reflexion 的本质是将“策略优化” (Policy Optimization) 从参数空间 (Parameter Space) 转移到了上下文空间 (Context Space)。

Gorilla 提出了一种通过微调 (fine-tuning) 和检索增强 (retrieval augmentation) 的方法,使 LLM 能够更有效地使用大量 API。构建了一个大规模的、包含真实世界 API 调用及其指令的数据集 (APIBench),并在此数据集上微调一个基础 LLM。

Toolformer 提出了一种自监督框架,使语言模型能够学会自主使用外部工具。通过以“降低未来词元预测损失”为目标来过滤和学习 API 调用,Toolformer 在不牺牲核心语言能力的前提下,显著增强了模型在知识获取、数学计算、实时信息处理等方面的零样本能力,甚至能让较小模型匹敌数倍于其参数量的更大模型。

本文提出了一种名为Reflexion的框架,旨在解决大型语言模型 (LLM) 在作为智能体 (Agent) 执行任务时,难以通过传统的强化学习 (RL) 方法进行快速、低成本学习的问题。Reflexion 的本质是将“策略优化” (Policy Optimization) 从参数空间 (Parameter Space) 转移到了上下文空间 (Context Space)。








