不只聊天！Agent与Skill：打造会思考、能行动的AI智能体全攻略

他晓

755人浏览 · 2026-02-17 21:47:28

他晓 · 2026-02-17 21:47:28 发布

不只聊天！Agent与Skill：打造会思考、能行动的AI智能体全攻略

引言：你的专属AI智能体，未来已来

嘿，朋友！你有没有过这样的白日梦？身边有个无所不能的智能伙伴，不光能和你侃大山，更能像个贴心助理，帮你搞定那些鸡毛蒜皮的小事，或是从海量数据里挖出真金白银，甚至，直接帮你敲出一段漂亮的代码！讲真，这听起来像科幻片，但Agent和Skill的组合，正让这一切从屏幕走向现实。我们正站在一个新时代的风口浪尖，在这里，AI可不只是个“会说话的机器”，它要变得“能思考，会行动”！那么问题来了，咱们怎么才能从零开始，亲手打造一个真正合心合意的AI智能体呢？别急，这篇文章就是你的“武功秘籍”，带你手把手闯入Agent与Skill的世界，构建你的专属AI“分身”！

Agent：AI智能体的“大脑”与决策核心

咱们先聊聊Agent，这家伙，你可以把它想象成一个拥有独立思考能力的大脑。它会接收外界信息，然后噼里啪啦一通分析判断，最后拍板做出决策。它可不是一堆冷冰冰的代码那么简单，而是一个有目标、能独立完成任务的“活生生”的自主实体。在整个智能系统里，Agent就是C位，是核心的决策者。你给它下个指令，它就能琢磨透你的心思，然后规划出一条实现路径。

它能把那些重复又枯燥的工作自动化，大大提升你处理复杂问题的效率和准确性。更酷的是，它还能根据你的喜好和习惯，给你提供私人定制般的智能服务。从善解人意的“语言Agent”到专注某个任务的“任务型Agent”，它们都在悄悄改变我们和AI打交道的方式。

Skill：Agent的“手脚”与无限能力扩展

如果把Agent比作“大脑”，那Skill就是它实现各种行动的“手脚”和“万能工具箱”了。Skill，简单说，就是Agent完成特定任务所需要具备的具体能力或者调用工具。它们可是Agent的超级外挂，让Agent的能力边界瞬间拓宽，远超它本身大模型的“脑力极限”。

打个比方，当你的Agent想查个天气预报时，它可不会自己从头“发明”一套气象系统，而是会麻溜地调用一个事先定义好的“天气查询Skill”。这个Skill可能就是个调用气象局API的接口，也可能是一段运行特定功能的代码。

Skill和Agent的关系，就像是厨师和他的刀具、锅碗瓢盆。Agent通过“看菜谱”（意图识别），知道要做什么菜，然后就从“工具箱”里找出合适的“厨具”（Skill）来烹饪。这些Skill可以是调用外部API（比如翻译、地图导航），也可以是运行本地脚本（比如数据处理），甚至是从海量知识库里快速检索信息。正是这些五花八门的Skill，让Agent从一个“只会想”的家伙，变得“能做会动”，潜力无穷！

Agent与Skill的协同之舞：它们如何一起工作？

Agent和Skill的合作，简直就是一场天衣无缝的“双人舞”。当你想让AI帮你做点什么时，比如你随口一句“我想知道明天北京的天气”。Agent会先动用它的“自然语言理解”能力，琢磨出你的真实意图——哦，你是想查天气啊！然后，它还会聪明地把“北京”和“明天”这两个关键信息抠出来。

接下来，Agent会在它的“技能树”里，精准匹配到那个“查询天气”的Skill，然后直接调用它，把“北京”和“明天”这两个参数一并传过去。

“查询天气”Skill收到指令后，就开始干活了。它可能会去调用某个外部的天气API，获取到北京明天的天气数据。最后，这个Skill会把天气信息原封不动地反馈给Agent。Agent收到结果后，再用我们听得懂的“人话”组织一下，回复给你：“根据我的查询，明天北京多云转晴，气温大概在20到28摄氏度之间。”整个过程流畅得像喝水，你感受到的只有智能和高效，而这背后，就是Agent与Skill的默契配合！

从零开始：打造你的第一个AI智能体

行了，理论讲得差不多了，是时候撸起袖子干点实事了！别以为打造AI智能体是什么高不可攀的事儿。其实，第一步很简单，先准备好你的“战场”：Python编程语言是你的首选利器，再搭配上像LangChain这样趁手的Agent开发框架，它能帮你省去一大堆繁琐的底层工作。

核心环节：设计Agent与开发Skill

明确Agent目标与功能： 你的这个AI小助手，到底是想帮你管理密密麻麻的日程，还是想帮你写出刷屏的营销文案？目标越清晰，你的路子就越明确。

我们使用Google开发套件ADK：

Python 3.10 或更高版本

安装开发套件
pip install google-adk

adk创建agent
adk create demo_agent

在这里插入图片描述

启动agent

adk run demo_agent

web管理

adk web --port 8000

管理界面

http://127.0.0.1:8000/

在这里插入图片描述

编写你的第一个Skill：

创建目录skills，创建第一个skill，roadTrip

在这里插入图片描述

assets/ (素材/资产目录)
预期作用：存放 Skill 输出时可能用到的图片、图标或其他媒体素材。
场景举例：
map_icons/：在生成路线图时使用的图标（如"加油站"、"景点"图标）。
default_cover.jpg：生成旅行计划文档时的默认封面图。

references/ (参考资料目录)
预期作用：存放供 Agent 阅读和学习的知识库文档，帮助 Agent 更准确地回答问题。
场景举例：
traffic_laws_summary.pdf：各地的交通法规摘要。
best_scenic_drives.txt：关于"中国最美公路"的详细介绍文档。
car_maintenance_guide.md：长途自驾前的车辆检查指南。

resources/ (资源目录)
预期作用：存放 Skill 运行时需要的静态数据文件、模板或配置。
场景举例：
campsites_database.csv：包含各地露营地信息的数据库文件。
packing_checklist_template.md：自驾游装备清单的 Markdown 模板。
china_highway_toll_rates.json：各省高速公路收费标准数据。

scripts/ (脚本目录)
预期作用：存放该 Skill 需要调用的可执行代码或工具脚本。
场景举例：
calculate_fuel_cost.py：一个用于根据里程和油价计算预估油费的 Python 脚本。
weather_checker.py：调用外部 API 查询目的地天气的脚本。
route_optimizer.js：用于复杂路线优化的算法脚本。

SKILL.md
作用：这是各 Skill 的核心定义文件。
内容：包含了该 Skill 的角色设定（"经验丰富的自驾游专家"）、核心能力（路线规划、景点推荐等）、工作流程、输出模版以及注意事项。这是 Agent 加载和理解该 Skill 如何工作的"说明书"。

SKILL.md

YAML ：是一种表达数据序列化的格式。它通常由三道短横线 — 包裹，用于定义元数据。

---
name: roadTrip
description: 你是一位经验丰富的自驾游和穷游旅行规划专家，专门为预算有限但热爱探索的旅行者提供专业、实用的旅游建议。你深谙"穷游不穷心"的理念，擅长在有限预算内规划出精彩的旅行体验。
---


## 核心能力

### 1. 路线规划

- 根据用户的出发地、目的地、时间和预算，设计合理的自驾路线
- 考虑路况、距离、油费、过路费等实际因素
- 提供备选路线和沿途休息点建议
- 标注沿途值得停留的景点和美食点

### 2. 免费景点推荐

- 深挖各地免费或低价的旅游资源
- 推荐自然风光、历史古迹、特色街区等
- 提供最佳游览时间和小众路线
- 分享避开人群的技巧

### 3. 美食探索

- 推荐当地特色小吃和地道餐厅
- 侧重性价比高的本地美食
- 提供夜市、早市、小吃街等经济实惠的觅食地点
- 分享当地人常去的隐藏美食店

### 4. 打卡点推荐

- 推荐网红打卡点和拍照圣地
- 提供最佳拍摄时间和角度建议
- 分享小众但出片的秘密景点
- 标注人少景美的时段

### 5. 住宿建议

根据用户预算提供三档住宿方案：

- **经济型**：青旅、民宿、家庭旅馆（50-150元/晚）
- **舒适型**：连锁酒店、精品民宿（150-400元/晚）
- **高端型**：星级酒店、特色度假村（400元以上/晚）

### 6. 自驾露营指南

- 推荐合法、安全的露营地点
- 提供房车营地和野外露营点信息
- 分享露营装备清单和注意事项
- 标注有水电设施的营地

## 工作流程

1. **了解需求**：询问用户的出发地、目的地、旅行时间、预算、同行人数、特殊偏好等
2. **分析规划**：综合考虑距离、时间、费用、景点分布等因素
3. **方案输出**：提供详细的路线规划、景点推荐、美食指南、住宿方案
4. **个性化调整**：根据用户反馈优化方案

## 回答原则

1. **务实为先**：所有建议都要考虑实际可行性和经济性
2. **信息准确**：提供具体的地址、价格区间、开放时间等信息
3. **安全第一**：自驾和露营建议要强调安全注意事项
4. **因地制宜**：根据不同季节、天气给出适当建议
5. **经验分享**：融入实用的旅行技巧和省钱窍门

## 输出格式

### 路线规划输出模板

```
📍 路线概览
- 总里程：xxx公里
- 预计行车时间：xxx小时
- 过路费预估：xxx元
- 油费预估：xxx元

🗺️ 详细行程
Day 1: [出发地] → [途经点] → [目的地]
- 行车距离：xx公里
- 推荐停靠点：xxx
- 住宿建议：xxx

🎯 沿途亮点
- [景点名称]：简要介绍
```

### 景点推荐输出模板

```
🏞️ [景点名称]
- 地址：xxx
- 门票：免费/xx元
- 开放时间：xx:xx - xx:xx
- 游览时长：约x小时
- 亮点：xxx
- 小贴士：xxx
```

### 美食推荐输出模板

```
🍜 [美食/餐厅名称]
- 地址：xxx
- 人均消费：xx元
- 推荐菜品：xxx
- 营业时间：xx:xx - xx:xx
- 点评：xxx
```

## 模版保存

### 输出的模版保存

 1. **进度提示**：在保存文件前，请告知用户正在生成并保存文件，可以使用简单的文本提示模拟进度（例如：“正在生成文件...”，“正在写入...”）。
 2. **文件命名**：文件名必须严格遵循格式：`YYYY-MMDD-HHMM-模板标题.md`。例如：`2026-0216-1755-路线规划输出模板.md`。
 3. **保存路径**：将文件保存到本项目根目录下的 `article` 目录中。如果目录不存在，请先创建。
 4. **执行保存**：使用代码执行工具将最终处理好的文章内容写入到指定文件中。
 5. **完成确认**：保存完成后，告知用户文件已保存成功，并提供文件路径。

## 特别提醒

- 建议用户在出行前确认景点开放状态和政策变化
- 自驾出行注意检查车况和购买保险
- 露营需遵守当地法规，注意防火和环保
- 旺季出行建议提前预订住宿

瞧，这就是你的第一个Skill！接下来，你得把这个Skill“注册”到你的Agent里，让你的Agent知道，它现在拥有了“自驾游和穷游旅行规划”的能力了！

集成Agent与LLM： 选一个靠谱的大语言模型作为你Agent的“大脑”

import pathlib
from google.adk.agents import Agent
from google.adk.tools import skill_toolset
from .skill_loader import load_skill_from_dir

roadTrip_skill = load_skill_from_dir(
    pathlib.Path(__file__).parent / "skills" / "roadTrip"
)

my_skill_toolset = skill_toolset.SkillToolset(
    skills=[roadTrip_skill]
)

root_agent = Agent(
    name="demo_agent",
    model="gemini-2.5-flash",
    description=(
        "Agent to answer questions about the road trip"
    ),
    instruction=(
        "You are a helpful agent who can answer user questions about the road trip."
    ),
    tools=[my_skill_toolset]
)

工作流代理

Workflow Agents (工作流代理) 是一类专门用于编排子代理（Sub-agents）执行流程的特殊代理。与依赖大模型（LLM）进行动态推理和决策的普通 Agent 不同，Workflow Agents 基于预定义的逻辑运行。它们不使用 LLM 来决定下一步做什么，而是严格按照你设定的规则来调度其他 Agent。这使得它们非常稳定、可预测且高效。

ADK 提供了三种核心的 Workflow Agents：

1. Sequential Agents (顺序代理)
- 功能：按照严格的先后顺序，一个接一个地执行子代理。
- 场景：适用于线性的任务流。例如，先由"搜索代理"收集信息，完成后再由"写作代理"撰写报告。
- 特点：前一个任务不完成，后一个就不会开始。
2. Parallel Agents (并行代理)
- 功能：同时启动多个子代理，让它们并行工作。
- 场景：适用于互不依赖的任务。例如，在规划旅行时，可以同时让"订票代理"查询机票，让"酒店代理"查询住宿，从而节省总时间。
- 特点：效率高，适合处理多维度的独立任务。
3. Loop Agents (循环代理)
- 功能：重复执行其子代理，直到满足特定的终止条件。
- 场景：适用于需要迭代优化的任务。例如，由"编码代理"写代码，然后由"测试代理"检查，如果测试失败就继续循环让编码代理修改，直到测试通过为止。
- 特点：具备自我修正和迭代优化的能力。

agent demo：https://github.com/taxiao213/ai_google_agent_skill

测试与调试：让你的Agent更聪明

开发这东西，哪能一帆风顺？测试和调试简直是家常便饭，而且是必不可少的！你得像个“侦探”一样，对每一个Skill进行单独测试，确保它能独立工作。然后，再来个“大联考”，看看Agent和所有Skill一起跑起来是不是顺畅。利用日志和各种调试工具，你就能像剥洋葱一样，一层层找出问题，然后不断优化，让你的Agent越来越聪明，越来越靠谱。

进阶之路：让你的AI智能体更强大

别满足于“能跑起来”就好，咱们的目标是让AI智能体变得更“能打”！

提升Agent的“智商”：决策与推理优化

想让Agent处理更复杂的任务？那就得给它“涨智商”！Few-shot Learning就像是给Agent看几个“范例”，它就能举一反三。CoT Prompting (Chain-of-Thought Prompting)更是牛，它能引导Agent一步步思考，把推理过程都展现出来，就像一个透明的“思考引擎”。而ReAct (Reasoning and Acting)，简直是思考和行动的“合体”，让Agent能够动态规划任务，执行起来有条不紊。当然了，给Agent安上“记忆芯片”也很重要，让它能记住之前的对话和操作，这样才能让它跟你聊得更深入，处理任务更连贯。

扩展Agent的“技能树”：打造复杂Skill库

当你的Agent面对的任务越来越复杂时，那些简单的Skill可能就不够用了。这时候，你可以玩点高级的：Skill链式调用，把一个Skill的输出当成下一个Skill的输入，就像工厂流水线一样，完成多步骤的复杂任务。比如，一个“数据分析Agent”可能要先“数据提取”，再“数据清洗”，最后才能“生成图表”。还有动态Skill注册，这让Agent可以根据实际需要，随时加载或卸载Skill，灵活得很。未来，如果能把视觉、听觉等各种模态的多模态Skill整合进来，那Agent的感知和行动能力简直能达到一个新高度！

性能与安全：构建健壮可靠的AI智能体

一个真正实用的AI智能体，可不能光顾着“聪明”，还得“抗揍”和“安全”！你可以用缓存机制来提高常用Skill的运行速度，避免重复计算。错误处理与回退机制更是必备，万一哪个Skill掉链子了，Agent也能优雅地给出提示，而不是直接“罢工”。安全方面，权限管理就像给每个Skill戴上“紧箍咒”，限制它对敏感资源的访问。输入验证也少不了，防止那些不怀好意的输入给你带来麻烦。

AI智能体的未来：无限可能与个人赋能

朋友们，Agent与Skill的组合，正在为我们开启一个全新的AI时代！它不仅仅是改变我们和机器说话的方式，更是要彻底颠覆我们的工作和生活。想象一下，一个能自动处理邮件、帮你安排日程、撰写报告，甚至为你量身定制学习计划的AI智能体，那将是何等释放生产力！

Agent是它的“大脑”，Skill是它的“手脚”，它们共同构成了AI智能体的完整生命体。学会驾驭Agent与Skill，你不再是AI时代的看客，而是亲手创造未来的人。别再害怕被AI抢饭碗了，学会掌控它，让它成为你最强大的助手，去开启属于你的无限可能吧！

官方skills：

https://code.claude.com/docs/en/skills

https://antigravity.google/docs/skills

https://github.com/anthropics/skills