彻底爆了!一文吃透AIGC、Agent、MCP的概念和关系,大模型入门到精通,收藏这篇就足够了!
人工智能领域涌现诸多新概念新技术,AIGC、MCP和Agent成业界与学术界热门话题。本文将深入浅出介绍这三个概念,助读者理解其内涵、区别、联系及实际应用价值。
近年来,人工智能领域涌现诸多新概念新技术,AIGC、MCP和Agent成业界与学术界热门话题。本文将深入浅出介绍这三个概念,助读者理解其内涵、区别、联系及实际应用价值。
01
AIGC
AIGC 即 AI Generated Content,指利用人工智能技术(如 GPT、Stable Diffusion 等大模型)自动生成文本、图片等多种内容。2022 年 11 月 30 日,OpenAI 的 ChatGPT(基于 GPT-3.5)上线,引爆 AIGC 热潮。

1.1 多模态技术
单模态:只处理一种类型的数据,比如只处理文本(如GPT-3.5)、只处理图像(如图像识别模型)。
多模态:能够同时处理两种及以上类型的数据。例如,既能理解图片内容,又能理解文本描述,甚至还能结合音频、视频等信息进行综合分析和生成。对应的场景有。
| 场景 | 主流模型 |
| 文生图片 | DALL-E(OpenAI)、Imagen(Google)、Stable Diffusion(Stability AI)、混元文生图(腾讯)等 |
| 文生视频 | Sora(OpenAI)、Stable Video Diffusion(Stability AI) |
| 图生文(图片理解) | GPT-4V(OpenAI)、Gemini(Google)、Qwen-VL(阿里) |
| 图文生视频 | Runway Gen-2(Runway AI)、Stable Video Diffusion(Stability AI) |
| 视频生文(视频理解) | Gemini 1.5 / Gemini Pro Vision(Google) |
1.2 RAG 技术
RAG(检索增强生成)技术,是结合信息检索(IR)与大型语言模型(LLM)文本生成能力的人工智能框架。核心思想:LLM回答问题或生成文本时,不单纯依赖内部训练知识,而是先从外部知识库检索相关信息片段,再将其与原始问题/指令提供给LLM,让LLM基于最新、最相关上下文生成更准确可靠、少幻觉的答案 。
大型语言模型虽然拥有海量的知识和强大的语言理解与生成能力,但也存在一些关键限制:
- 知识局限性/过时性:LLM 知识源于训练数据截止日前信息。对之后事件、新研究、最新数据或特定领域细节,可能不知或提供过时信息。
- 幻觉:LLM 遇到知识库中不明确或不存在的信息时,可能“捏造”看似合理但错误或不存在的答案。
- 缺乏来源/可验证性:LLM 通常无法提供答案具体来源,难验证答案准确性。
- 特定领域知识不足:通用LLM可能缺对特定公司、组织或个人私有知识库的深入了解。
RAG 正是为了解决这些问题而诞生的。

02
智能体 Agent
“智能体”(Agent)在计算机科学和人工智能领域,指能感知环境、自主决策并行动以实现特定目标的实体或系统。可以是软件程序、机器人硬件或生物实体(如人类或动物),AI 领域通常指软件智能体。
Agent 和 AIGC 最大的区别:
- AIGC 主要以生成式任务为主,而 Agent 是可以通过自主决策能力完成更多通用任务的智能系统。
- 常见AIGC系统(文生文、文生图)核心是生成模型,Agent是集Function Call模型(下文详介)与软件工程于一体的复杂系统,需处理模型与外界的信息交互。
- Agent 可以集成 AIGC 能力完成某些特定的任务,也就是 AIGC 可以是 Agent 系统里面的一个子模块。
Agent 最大的特点是,借助 Function Call 模型,可以自主决策使用外接的一些工具来完成特定的任务。
2.1 Function Call 模型
2.1.1 什么是 Fucntion Call 模型
Function Calling(函数调用)是大型语言模型关键技术。前文提过RAG技术解决模型与外接数据交互问题,但其局限是仅赋予模型检索数据能力。Function Calling允许模型理解用户潜在意图,自动生成结构化参数调用外部函数/工具,突破纯文本生成限制,实现与真实世界交互,如调用查天气、发邮件、数学计算等工具。
Function Call 模型于 2023 年 6 月 13 日由 OpenAI 正式提出并发布,在 GPT-4 首次实现 Function Calling 能力。OpenAI 是大语言模型领路人,其模型 API 协议成行业标准,国内外新模型多参照实现。目前支持 Fucntion Calling 能力的主流模型如下表:
| 模型 | 开发者 | 首次支持 Function Calling 时间 |
| GPT-4 | OpenAI | 2023/06/13 |
| Claude-3 | Anthropic | 2024/03/04 |
| Gemini-2.0 | 2024/12 | |
| DeepSeek-R1 | 深度求索公司 | 2024/02/12 |
除了上面的知名度高的模型,还有一些其他开源或闭源模型也支持了 Fucntion Calling 能力,但是截至目前,GPT-4 仍然是公认的 Fucntion Calling 能力最强的模型。
2.1.2 工作原理:三步闭环流程
Function Call 模型的工作流程如下图:

步骤详解:
1、定义函数(开发者预设)
向 LLM 描述函数的用途、输入参数格式(JSON Schema),例如:
{
"name": "get_current_weather",
"description": "获取指定城市的天气",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "城市名称"},
"unit": {"enum": ["celsius", "fahrenheit"]}
},
"required": ["city"]
}
}
name 是工具名称
description 是这个工具的用途
parameters 是这个工具需要的输入参数
2、模型决策与生成参数
用户提问:“北京今天需要带伞吗?”
→ LLM 识别意图需调用 get_current_weather
→ 生成结构化参数:
{“city”: “北京”, “unit”: “celsius”}
3、执行函数 & 返回结果
- 程序调用天气API,获真实数据:{“temp”: 25, “rain_prob”: 30%}
- 将结果交回LLM,生成最终回复:“北京今天25°C,降水概率30%,建议带伞。”
2.1.3 核心优势:LLM 的“手和眼睛”
| 能力 | 传统LLM | 支持Function Calling的LLM |
| 获取实时信息 | ❌ 依赖训练数据 | ✅ 调用搜索引擎/数据库 |
| 执行精准计算 | ❌ 常出错(如复杂数学) | ✅ 调用计算器/Python |
| 操作外部系统 | ❌ 无法执行 | ✅ 发送邮件/控制智能家居 |
| 返回结构化数据 | ❌ 文本难解析 | ✅ 输出标准JSON |
2.2 Agent
OpenAI 发布 Function Call 模型后 Agent 开始发展。2025 年 4 月 Manus 发布通用智能体产品,引入 Computer Use 和 Browser Use,展现强大能力,使 Agent 真正进入公众视野并获广泛关注。
2.2.1 Agent 的工作流程
上文提到的 Function Call 模型工作流程图,已是 Agent 雏形。Agent 完成任务会循环调用模型,可能多次调用 Function Calling,调用工具由模型决策。最简单的 Agent 调用流程图如下:

比如有出行规划智能体,配置天气查询、驾车、公交、骑行、步行规划等工具。用户问“我在深圳,5月1日自驾去北京旅行,帮我规划出行方案”,一个可能执行流程如下:

2.2.2 怎么开发一个自己的 Agent
最简单的方法是将 Agent 的提示词、工具、llm 调用及工具执行硬编码到代码中,可快速开发特定功能的 Agent,但会带来问题:
- 提示词(prompt),工具需要调整的时候,需要改配置或者代码,灵活度不够高;
- 如果要开发一个新功能的 Agent,整体代码可能需要重新实现一遍。
为解决一系列问题,coze、dify、腾讯云智能体开发平台等智能体开发平台相继出现。借助这些平台,开发者无需编程与服务器资源就能开发自己的Agent,执行流程由平台在云上完成。智能体开发平台架构一般含插件配置、Agent配置、执行模块及发布模块。

插件配置:统一管理所有 Agent 工具,而非散落各 Agent 内部,以实现复用。一般平台自带网络搜索、文件上传、AIGC 工具等插件,也支持开发者添加自定义插件。
Agent 配置:配置 Agent 的 提示词 (prompt),使用的模型,以及选择插件配置中的一批工具提供给模型做选择。
发布配置:开发者把自己的 Agent 开发调试稳定以后,发布成稳定版本就可以提供给用户使用了。
插件执行:执行某个特定的插件,返回结果。
Agent 执行:实现通用的 Agent 执行流程,调用插件执行模块实现工具调用。
下图是用腾讯云智能体开发平台,开发一个简单的 Agent 配置和实际执行效果图。

2.2.3 Multi-Agent
除用智能体开发平台快速开发 Agent 外,也可用 sdk 开发。2025 年 3 月 11 日,OpenAI 发布 OpenAI Agent SDK,颠覆 AI 开发范式。用 sdk 可快速配置自定义 Agent 并执行,较智能体开发平台,sdk 灵活性和自主可控性更高。
同时,OpenAI Agent SDK 首次引入 Mulit Agent 概念。此前智能体开发平台开发的单 Agent 能力有限,只能解决特定领域一个任务,复杂任务常需多个领域任务完成。OpenAI Agent SDK 让开发者能定义多领域 Agent,配置转交关系,允许 Agent 将特定任务交合适领域的 Agent 执行,多 Agent 协同完成复杂任务。
在 OpenAI Agent SDK 发布以后,以腾讯云智能体开发平台为代表的相关产品都相继支持了 Multi-Agent 模式。
2.3 Agent 的发展
Agent 发展尚处初期,速度快。在代码生成(如 Cursor、腾讯云 CodeBuddy)、广告营销等垂直领域已较好落地。通用 Agent 除 Manus 落地外,未见出色应用模式。相信未来会有更多好用、通用的 Agent 应用诞生。
03
MCP
3.1 什么是 MCP
MCP(Model Context Protocol,模型上下文协议)是由人工智能公司 Anthropic 于 2024 年 11 月 24 日正式发布并开源的协议标准。Anthropic 公司是由前 OpenAI 核心人员成立的人工智能公司,其发布的 Claude 系列模型是为数较少的可以和 GPT 系列抗衡的模型。
3.2 为什么需要 MCP
MCP协议解决LLM与外部数据源、工具集成难题,被喻为“AI应用的USB-C接口”。通过标准化协议,将“M×N集成问题”转为“M+N模式”,降低开发成本。

在 MCP 协议推出前:
- 智能体开发平台需单独插件配置与执行模型,屏蔽工具协议差异,为 Agent 提供统一接口;
- 开发者新增自定义工具要按平台规定的 http 协议实现,不同平台协议有别;
- “M×N 问题”:新增工具或模型需重开全套接口,致开发成本激增、系统脆弱;
- 功能割裂:AI 模型无法跨工具协作,用户需手动切换平台 。
没有标准,整个行业生态很难有大的发展,所以 MCP 作为一种标准的出现,是 AI 发展的必然需求。
| 维度 | 传统模式 | MCP 模式 | 变革价值 |
| 集成成本 | 每对接新工具需定制开发 | 一次开发,全网复用 | 开发效率提升 10 倍 |
| 功能范围 | 单一工具调用 | 多工具协同执行复杂任务链 | AI 从“助手”升级为“执行者” |
| 生态开放性 | 封闭式 API,厂商锁定 | 开源协议,社区共建工具库 | 催生“AI 应用商店”模式 |
| 安全可控性 | API 密钥暴露风险 | 数据不离域,权限分级管控 | 满足企业级合规需求 |
3.3 MCP 的发展情况
MCP 自 2024 年 11 月 24 日发布后,OpenAI、Google、微软、腾讯、阿里、百度等头部企业纷纷接入,推动其成成为事实性行业标准。mcp.so 、mcpmarket 等超大体量的 MCP 服务提供商相继出现,国内头部企业也加入 MCP 服务商竞争。在庞大的 MCP 市场下,开发者用 MCP 服务商插件即可开发大量 Agent,无需自行开发。
很多头部企业将原有 API 业务封装成 MCP 服务对外提供。如:GitHub Copilot 以 MCP 方式生成代码;AWS 2025 年 6 月推出开源工具 Amazon Serverless MCP Server,支持 Agent 操作云上资源进行服务编排;腾讯地图、高德地图、百度地图发布 MCP Server,支持 Agent 使用地图资源;腾讯云 COS、百度网盘支持 MCP 协议接入。
未来趋势:
-
与 AIOS 融合:MCP 成 AI 操作系统(如华为鸿蒙 HMAF)核心组件,实现跨设备智能调度;
-
生态挑战:大厂借 MCP 建“闭环生态”(如阿里集成高德地图),或引发协议割裂,需推动跨平台协作标准。
MCP 不仅是技术协议,更是 AI 生产力革命的基石——它让模型真正融入现实世界,成为人类工作的无缝延伸。
整体看,Agent基于AIGC、MCP、大语言模型LLM等原子能力编排,提供更复杂AI应用。
想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年 AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享!
👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势
想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI:
1. 100+本大模型方向电子书

2. 26 份行业研究报告:覆盖多领域实践与趋势
报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:
- 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
- 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
- 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
- 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。
3. 600+套技术大会 PPT:听行业大咖讲实战
PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

- 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
- 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
- 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
- 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。
二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走
想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位
面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析:

2. 102 道 AI 大模型真题:直击大模型核心考点
针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题
专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:

三、路线必明: AI 大模型学习路线图,1 张图理清核心内容
刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

L1阶段:启航篇丨极速破界AI新时代
L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段:攻坚篇丨RAG开发实战工坊
L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段:跃迁篇丨Agent智能体架构设计
L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

L4阶段:精进篇丨模型微调与私有化部署
L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

L5阶段:专题集丨特训篇 【录播课】

四、资料领取:全套内容免费抱走,学 AI 不用再找第二份
不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:
👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!
更多推荐


所有评论(0)