Agent 浅谈（1）

摘要： Agent（智能体）在AI领域指能够感知环境、自主决策并执行任务的AI实体，核心特征包括感知、推理、记忆、行动和自进化。根据功能可分为感知、认知、执行等类型；按应用场景涵盖个人助理、智能制造等；技术架构上分为单Agent、模块化及多Agent系统；载体形态包括虚拟和具身Agent。开发需选择框架（如LangChain）、构建感知至评价五层流程，并利用全栈工具或低代码平台。Agent技术正推

b_b1949

314人浏览 · 2025-10-07 18:17:20

b_b1949 · 2025-10-07 18:17:20 发布

随着人工智能特别是大模型LLM的快速发展，Agent（智能体）成为了一个越来越常见乃至比较流行的术语。我们对其进行简单梳理。

一、Agent 相关概念

首先，Agent本身含义包括以下几个方面：
（1）a person who acts for or represents another （代理人或代理商）；
（2）a person who represents an actor, artist, or writer （经纪人）；
（3）someone who works secretly for the government or other organization（特工或间谍）；
（4） something that produces or is capable of producing an effect : an active or efficient cause （原因或动因）；
（5）a computer application designed to automate certain tasks （智能体）。

其次，在人工智能领域，Agent之前较多出现在强化学习里面，指的是能够与环境能够交互的个体，通常被翻译为"智能体"。具体来说，在强化学习里面，智能体能够感知周围环境信息，称为State，进而采取行动或者动作，即Action，随后获得环境的反馈信息或奖励信息，即Reward。

目前，比较流行的Agent所指的是一种能够进行环境感知、自主决策、和执行任务的人工智能实体或系统。其本质是通过目标驱动（Goal-oriented）或Task-oriented （任务导向）来实现人与机器或机器与机器协同的系统。其核心特征包括：

感知（Perception）：通过传感器或者API接收文本、图像、视频、物理信号灯多模态数据；
推理（Reasoning）：调用大模型来解析任务目标、拆解任务进而进行任务评估决策；
记忆（Memory）：使用上下文检索、短期记忆等保持对话状态；
行动（Action）：调用函数、API或机械控制装置等工具来作用于或改变相关环境；
自进化（Self-Evolution）：能够基于环境或人类反馈进行策略优化。

二、Agent相关分类

Agent 根据其功能、应用场景、技术架构等不同角度来看，可以分为不同类别。Agent的相关分类举例如下：

2.1 按照功能来划分：
（1）感知Agent；
（2）认知（思考）Agent；
（3）执行Agent；
（4）导航Agent；
等等。

2.2 按照应用场景来划分：
（1）个人助理，如Siri或Copilot，消费应用场景；
（2）智能制造检测Agent，工厂应用场景；
（3）资源调度Agent，网络通信领域；
（4）服务机器人，机器人领域；
（5）会议纪要Agent，政企领域；
（6）短视频脚本Agent，影视行业；
（7）电商客服Agent，商业领域；
等等。

2.3 按照技术架构来划分：
（1）单个Agent：单模型来处理整个任务；
（2）模块化Agent，执行任务某一个特定功能的Agent；
（3）多Agent系统，多个Agent进行协同决策，常见合作方式有等级制（Hierarchical）、联邦式（Collaborative）、竞争式（Competitive）等。例如，MOE（混合专家）系统。

2.4 按照载体形态来划分：
（1）Virtual （虚拟） Agent，以纯软件形态存在与Cloud（云）或Edge（边缘）节点上；
（2）Embodied （具身）Agent，具有物理实体的机器人或Vehicles。

三、Agent 开发步骤

3.1 框架选择
Agent的模块化框架有 LangChain（工具链集成）、AutoGen（多Agent编排）等；其垂直优化框架，包括Agent间的通信、协作、控制等。

3.2 构建流程
根据Agent的功能，可以从以下5层来构建：
（1）感知层，构建Agent的输入，包括语音、文本、视频等多模态数据，核心技术包括多模态理解、语音、图像、文本识别等；
（2）推理层，是Agent进行推理的核心，一般选用LLM核心引擎，具体技术包括LoRA微调（业务适配）、CoT/ToT（复杂推理）等
（3）记忆层，用于保持对话状态，包括短期记忆、上下文检索、混合记忆管理等；
（4）行动层，Agent执行相关任务，一般采用工具调用接口（Web / API），包括决策-执行闭环等；
（5）评价层，用于Agent的自我改进机制，包括错误溯源、RLHF（人类偏好对齐）等。

3.3 开发工具
根据Agent的具体功能、应用场景，用于Agent开发的架构比较多。常见的有：
（1）全栈开发框架：LangChain、AutoGen、Agents SDK等；
（2）低代码可视化平台：Dify.AI、Google Vertex AI Agents、Coze（字节跳动）等；
（3）轻量化工具库：LlamaIndex、HuggingFace Agents等。

以上仅仅是对Agent初步学习的一些总结，欢迎大家交流讨论。

相关参考资料：
[1] Yang N, Fan M, Wang W, et al. Decision-Making Large Language Model for Wireless Communication: A Comprehensive Survey on Key Techniques, IEEE Communications Surveys & Tutorials , 2025.
[2] Jiang F, Peng Y, Dong L, et al. Large Language Model Enhanced Multi-Agent Systems for 6G Communications, IEEE Wireless Communications, 2024.
[3] Zhang B, Li Z, Chen X, et al. Edge Large AI Model Agent-Empowered Cognitive Multimodal Semantic Communication，IEEE Transactions on Mobile Computing (TMC), 2025.
[4] 华为，智能世界2035，2025.
[5] Huang Q, Wake N, SarKar B, et al. Agent AI Towards a Holistic Intelligence. arXiv preprint arXiv:2401.03568, 2024.
[6] 中移智库，智能体通信网络（ACN）白皮书，2024.