随着人工智能特别是大模型LLM的快速发展,Agent(智能体)成为了一个越来越常见乃至比较流行的术语。我们对其进行简单梳理。

一、Agent 相关概念

首先,Agent本身含义包括以下几个方面:
(1)a person who acts for or represents another (代理人或代理商);
(2)a person who represents an actor, artist, or writer (经纪人);
(3)someone who works secretly for the government or other organization(特工或间谍);
(4) something that produces or is capable of producing an effect : an active or efficient cause (原因或动因);
(5)a computer application designed to automate certain tasks (智能体)。

其次,在人工智能领域,Agent之前较多出现在强化学习里面,指的是能够与环境能够交互的个体,通常被翻译为"智能体"。具体来说,在强化学习里面,智能体能够感知周围环境信息,称为State,进而采取行动或者动作,即Action,随后获得环境的反馈信息或奖励信息,即Reward。

目前,比较流行的Agent所指的是一种能够进行环境感知、自主决策、和执行任务的人工智能实体或系统。其本质是通过目标驱动(Goal-oriented)或Task-oriented (任务导向)来实现人与机器或机器与机器协同的系统。其核心特征包括:

  1. 感知(Perception):通过传感器或者API接收文本、图像、视频、物理信号灯多模态数据;
  2. 推理(Reasoning):调用大模型来解析任务目标、拆解任务进而进行任务评估决策;
  3. 记忆(Memory):使用上下文检索、短期记忆等保持对话状态;
  4. 行动(Action):调用函数、API或机械控制装置等工具来作用于或改变相关环境;
  5. 自进化(Self-Evolution):能够基于环境或人类反馈进行策略优化。

二、Agent相关分类

Agent 根据其功能、应用场景、技术架构等不同角度来看,可以分为不同类别。Agent的相关分类举例如下:

2.1 按照功能来划分:
(1)感知Agent;
(2)认知(思考)Agent;
(3)执行Agent;
(4)导航Agent;
等等。

2.2 按照应用场景来划分:
(1)个人助理,如Siri或Copilot,消费应用场景;
(2)智能制造检测Agent,工厂应用场景;
(3)资源调度Agent,网络通信领域;
(4)服务机器人,机器人领域;
(5)会议纪要Agent,政企领域;
(6)短视频脚本Agent,影视行业;
(7)电商客服Agent,商业领域;
等等。

2.3 按照技术架构来划分:
(1)单个Agent:单模型来处理整个任务;
(2)模块化Agent,执行任务某一个特定功能的Agent;
(3)多Agent系统,多个Agent进行协同决策,常见合作方式有等级制(Hierarchical)、联邦式(Collaborative)、竞争式(Competitive)等。例如,MOE(混合专家)系统。

2.4 按照载体形态来划分:
(1)Virtual (虚拟) Agent,以纯软件形态存在与Cloud(云)或Edge(边缘)节点上;
(2)Embodied (具身)Agent,具有物理实体的机器人或Vehicles。

三、Agent 开发步骤

3.1 框架选择
Agent的模块化框架有 LangChain(工具链集成)、AutoGen(多Agent编排)等;其垂直优化框架,包括Agent间的通信、协作、控制等。

3.2 构建流程
根据Agent的功能,可以从以下5层来构建:
(1)感知层,构建Agent的输入,包括语音、文本、视频等多模态数据,核心技术包括多模态理解、语音、图像、文本识别等;
(2)推理层,是Agent进行推理的核心,一般选用LLM核心引擎,具体技术包括LoRA微调(业务适配)、CoT/ToT(复杂推理)等
(3)记忆层,用于保持对话状态,包括短期记忆、上下文检索、混合记忆管理等;
(4)行动层,Agent执行相关任务,一般采用工具调用接口(Web / API),包括 决策-执行闭环等;
(5)评价层,用于Agent的自我改进机制,包括错误溯源、RLHF(人类偏好对齐)等。

3.3 开发工具
根据Agent的具体功能、应用场景,用于Agent开发的架构比较多。常见的有:
(1)全栈开发框架:LangChain、AutoGen、Agents SDK等;
(2)低代码可视化平台:Dify.AI、Google Vertex AI Agents、Coze(字节跳动)等;
(3)轻量化工具库:LlamaIndex、HuggingFace Agents等。


以上仅仅是对Agent初步学习的一些总结,欢迎大家交流讨论。


相关参考资料:
[1] Yang N, Fan M, Wang W, et al. Decision-Making Large Language Model for Wireless Communication: A Comprehensive Survey on Key Techniques, IEEE Communications Surveys & Tutorials , 2025.
[2] Jiang F, Peng Y, Dong L, et al. Large Language Model Enhanced Multi-Agent Systems for 6G Communications, IEEE Wireless Communications, 2024.
[3] Zhang B, Li Z, Chen X, et al. Edge Large AI Model Agent-Empowered Cognitive Multimodal Semantic Communication,IEEE Transactions on Mobile Computing (TMC), 2025.
[4] 华为,智能世界2035,2025.
[5] Huang Q, Wake N, SarKar B, et al. Agent AI Towards a Holistic Intelligence. arXiv preprint arXiv:2401.03568, 2024.
[6] 中移智库,智能体通信网络(ACN)白皮书,2024.

Logo

更多推荐