
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
为什么在大模型时代仍然离不开强化学习?过去,许多大模型训练以“预训练 → 监督微调(SFT)”为主。自 2025 年起,强化学习(RL)及其后训练(post-training)范式逐步成为主流大语言模型与智能体(Agent)系统的标配。几乎所有顶尖模型与 Agent 在技术报告中均提及强化学习微调流程,并大量引入基于反馈的后训练机制,从而获得显著性能提升。
为什么在大模型时代仍然离不开强化学习?过去,许多大模型训练以“预训练 → 监督微调(SFT)”为主。自 2025 年起,强化学习(RL)及其后训练(post-training)范式逐步成为主流大语言模型与智能体(Agent)系统的标配。几乎所有顶尖模型与 Agent 在技术报告中均提及强化学习微调流程,并大量引入基于反馈的后训练机制,从而获得显著性能提升。
基础知识笔者带大家学习了 `create_agent` API 的基本构建要素、消息机制与流式输出等核心操作。然而,`create_agent` 作为 LangChain 1.0 中新一代智能体构建的标准 API,其能力远不止于此。从工具调用的精细化控制,到记忆机制的灵活运用,再到细粒度的逻辑控制,它都提供了丰富而强大的高阶功能。本文作为该系列第三篇,将继续深入 `create_agent` 的相

基础知识笔者带大家学习了 `create_agent` API 的基本构建要素、消息机制与流式输出等核心操作。然而,`create_agent` 作为 LangChain 1.0 中新一代智能体构建的标准 API,其能力远不止于此。从工具调用的精细化控制,到记忆机制的灵活运用,再到细粒度的逻辑控制,它都提供了丰富而强大的高阶功能。本文作为该系列第三篇,将继续深入 `create_agent` 的相

作者和团队介绍:本文一作是高焕霖和陈平,通讯作者为赵放和廉士国,其他作者还包括石芙源、谭超、刘兆祥、王恺,所有作者均来自联通数据智能有限公司(联通数据科学与人工智能研究院)元景大模型研发团队。

作者和团队介绍:本文一作是高焕霖和陈平,通讯作者为赵放和廉士国,其他作者还包括石芙源、谭超、刘兆祥、王恺,所有作者均来自联通数据智能有限公司(联通数据科学与人工智能研究院)元景大模型研发团队。

在人工智能领域,真正的智能不仅表现为对即时刺激的响应,更体现在对未来行动的前瞻性思考。规划模式是AI Agent展现高级智能的核心机制,它使系统能够将复杂目标分解为可执行的步骤序列,从而系统性地从当前状态过渡到期望状态。

在人工智能领域,真正的智能不仅表现为对即时刺激的响应,更体现在对未来行动的前瞻性思考。规划模式是AI Agent展现高级智能的核心机制,它使系统能够将复杂目标分解为可执行的步骤序列,从而系统性地从当前状态过渡到期望状态。

很多人会有这样的疑惑:它们不是一回事吗?Agent 不就是在大模型外面包了一层“壳”吗?谷歌在最新的Agent 白皮书中给出了明确的答案:并非如此。 如果说大模型是拥有超强计算能力的“大脑”,那么智能体就是一个拥有手脚、感官和记忆的完整“人”。

很多人会有这样的疑惑:它们不是一回事吗?Agent 不就是在大模型外面包了一层“壳”吗?谷歌在最新的Agent 白皮书中给出了明确的答案:并非如此。 如果说大模型是拥有超强计算能力的“大脑”,那么智能体就是一个拥有手脚、感官和记忆的完整“人”。








