一、今天学了什么?

今天主要学习了 AI Agent 的基础概念。以前我们更多接触的是普通的程序:用户输入什么,程序就按照固定逻辑执行什么。而 Agent 更像是一个具备一定“自主性”的智能系统。

简单来说,Agent 不只是回答问题,它还可以:

  • 理解用户目标;
  • 拆解任务;
  • 调用工具;
  • 获取外部信息;
  • 执行多步操作;
  • 根据结果继续调整下一步行动。

也就是说,Agent 更像是一个“会思考、会行动、会使用工具的 AI 程序”。


二、什么是 Agent?

对 Agent 的理解是:

Agent 是一个以大语言模型为核心,能够根据目标进行规划、决策、调用工具并完成任务的智能体系统。

普通大模型更偏向于“问答”,而 Agent 更偏向于“完成任务”。

例如:

普通 AI:

用户问:帮我写一封邮件。
AI 回答:给你一封邮件内容。

Agent:

用户说:帮我给张三发一封会议延期通知。
Agent 可能会:

  1. 理解任务目标;
  2. 生成邮件内容;
  3. 查找张三的邮箱;
  4. 调用邮件工具;
  5. 创建草稿或发送邮件;
  6. 返回执行结果。

这就是 Agent 和普通聊天机器人的区别。


三、Agent 的核心组成

今天我觉得最重要的是理解 Agent 的几个核心模块。

1. 大语言模型:Agent 的“大脑”

LLM 是 Agent 的核心,用来理解用户意图、进行推理、生成计划和决定下一步动作。

比如用户说:

帮我整理一下今天学的内容,然后生成一篇博客。

模型需要判断:

  • 用户要的是总结;
  • 输出形式是博客;
  • 平台是 CSDN;
  • 内容主题是 Agent;
  • 语气要适合学习记录。

所以,LLM 负责的是理解、推理和生成。


2. Prompt:给 Agent 的行为说明书

Prompt 不只是简单提问,它更像是给 Agent 设置角色、任务和规则。

比如:

你是一个 AI 学习助手,请帮助我把今天学习的 Agent 内容整理成一篇适合发布到 CSDN 的技术博客。
要求:
1. 结构清晰;
2. 适合初学者;
3. 结合 Java 开发者视角;
4. 不要太学术化。

好的 Prompt 可以让 Agent 更稳定地完成任务。

今天我也意识到,做 Agent 不只是会调用大模型,还需要会设计提示词,让模型知道该怎么做。


3. Tools:Agent 的工具能力

Agent 之所以比普通聊天机器人更强,是因为它可以调用工具。

工具可以是:

  • 搜索工具;
  • 数据库;
  • 邮件系统;
  • 日历;
  • 文件系统;
  • API 接口;
  • Python 代码执行环境;
  • 企业内部系统。

从 Java 开发者视角看,Tool 其实可以理解成一个个函数、接口或者服务。

例如:

public String searchWeb(String query) {
    // 调用搜索接口
}

public void sendEmail(String to, String subject, String content) {
    // 调用邮件接口
}

Agent 的关键在于:它不只是能调用工具,而是能够判断什么时候调用什么工具


4. Memory:Agent 的记忆能力

Agent 还可以有记忆能力。

记忆可以分为几类:

短期记忆

比如当前对话上下文,用户前面说过什么,Agent 后面可以继续接着理解。

长期记忆

比如用户长期偏好、身份、学习方向等。

例如我自己的情况:

我原来学习 Java,现在希望往 AI 方向发展,最终成为 Agent 工程师。

如果 Agent 记住这个信息,以后回答问题时就可以更贴合我的背景。

外部记忆

比如向量数据库、知识库、文档系统等。

Agent 可以从知识库中检索相关内容,再结合大模型生成答案,这就是 RAG 和 Agent 经常结合的地方。


四、Agent 的基本工作流程

今天我对 Agent 的执行流程有了一个比较清晰的认识。

一个 Agent 通常会经历以下步骤:

用户输入目标
    ↓
Agent 理解任务
    ↓
拆解任务步骤
    ↓
决定是否调用工具
    ↓
执行工具
    ↓
观察工具结果
    ↓
继续推理
    ↓
输出最终结果

也可以简单理解成:

Think → Act → Observe → Answer

也就是:

  • Think:思考下一步做什么;
  • Act:执行动作或调用工具;
  • Observe:观察执行结果;
  • Answer:给用户最终答案。

这个流程让我意识到,Agent 本质上不是单次问答,而是一个循环执行的智能系统。


五、从 Java 开发者角度怎么理解 Agent?

作为 Java 学习者,我觉得可以这样类比:

传统 Java 程序像是:

Controller → Service → DAO → Database

流程比较固定,程序员提前写好逻辑。

而 Agent 更像是:

User Goal → LLM Reasoning → Tool Calling → Result Observation → Final Response

区别在于:

对比项 传统 Java 程序 AI Agent
执行逻辑 程序员提前写死 模型根据目标动态决策
输入方式 结构化参数 自然语言
能力边界 代码定义好的功能 模型 + 工具组合能力
任务处理 单步或固定流程 多步推理和执行
可扩展性 增加接口和模块 增加工具、记忆和知识库

所以我理解 Agent 工程师不是完全脱离传统开发,而是在传统后端能力之上,加上大模型调用、工具编排、上下文管理和智能决策能力。


六、Agent 工程师需要掌握哪些能力?

今天学习之后,我感觉 Agent 工程师并不是只会调 API 就够了,而是需要综合能力。

1. 编程基础

Java、Python 至少要熟悉一种后端开发语言。

因为 Agent 最终还是要落到工程实现上,比如接口封装、服务调用、数据库操作、权限控制等。

2. 大模型基础

需要理解:

  • Prompt Engineering;
  • Function Calling;
  • Token;
  • 上下文窗口;
  • Embedding;
  • RAG;
  • 多轮对话;
  • 模型幻觉问题。

3. 工具调用能力

Agent 的执行能力来自工具。

所以需要会把外部能力封装成工具,例如:

  • 搜索工具;
  • 数据查询工具;
  • 文件读取工具;
  • 邮件发送工具;
  • 企业业务系统 API。

4. 任务规划能力

Agent 不是一次性完成所有任务,而是需要把复杂任务拆成多个步骤。

例如:

目标:帮我生成一篇 CSDN 博客
步骤:
1. 确认主题;
2. 整理学习内容;
3. 生成标题;
4. 组织文章结构;
5. 输出正文;
6. 优化排版。

5. 工程化能力

真正做 Agent 项目,还要考虑:

  • 日志;
  • 异常处理;
  • 权限控制;
  • 工具调用失败重试;
  • 成本控制;
  • 响应速度;
  • 数据安全;
  • 用户体验。

这些其实和 Java 后端开发经验是相通的。


七、今天最大的收获

今天最大的收获是:我开始理解 Agent 不是一个神秘的新概念,而是可以用工程思维去拆解的系统。

它大概可以理解成:

Agent = LLM + Prompt + Tools + Memory + Planning + Workflow

其中:

  • LLM 负责理解和推理;
  • Prompt 负责约束行为;
  • Tools 负责连接外部世界;
  • Memory 负责保存上下文和用户信息;
  • Planning 负责任务拆解;
  • Workflow 负责整体执行流程。

这让我觉得从 Java 转向 Agent 工程师是有路径的。Java 后端基础并不会浪费,反而可以帮助我更好地理解 Agent 的工程实现。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐