注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

GPT多模态大模型与AI Agent智能体系列二百二十二

2025 AI Agent行业深度拆解:DeepSeek降本3%破推理壁垒,Manus开通用闭环,从技术到商业的全景指南

2025年,全球AI领域迎来两大里程碑事件:中国团队研发的DeepSeek-R1开源模型以“推理成本仅为OpenAI的3%”引爆开发者生态,通用智能体Manus则凭借“任务自主执行闭环”刷新公众对AI生产力的认知。这两大突破标志着AI Agent(智能体)正式从实验室走向产业应用,人机协作模式正迎来根本性重构。本文基于王吉伟频道在「大数据百家讲坛」的分享,从AI Agent的核心定义、技术影响、行业现状、企业价值四大维度,全面拆解行业趋势与实践路径,为个人与企业提供清晰的行动指南。

一、基础认知:什么是AI Agent?从定义到核心差异

要理解AI Agent的产业价值,需先明确其本质——它并非传统大模型的升级,而是具备“自主决策-执行”能力的全新智能实体,核心可通过“定义-差异-设计方式”三层拆解:

1. AI Agent的定义与PPA架构

AI Agent的核心是“感知环境、决策规划、执行行动的智能实体”,业界最认可的是复旦大学NLP团队提出的定义,其核心逻辑可概括为PPA架构(Perception-Planning-Action,感知-规划-行动):

  • 感知层:覆盖文本、图像、语音等多模态输入,甚至延伸至“人体五觉”模拟(如温度、振动感知),典型如DeepSeek-R1可精准解析模糊指令(如“找上周的技术方案”),意图识别准确率达92.3%;
  • 规划层:基于目标拆分任务、收集信息、优化策略,例如金融AI Agent可将“生成季度风险报告”拆分为“数据采集-清洗-建模-生成”四步;
  • 行动层:调用工具(API、软件、硬件)执行任务,并根据结果循环优化,如Manus可自动操作Excel、调用搜索引擎,完成“从指令到成果”的全链路闭环。

这一架构区别于传统大模型的“被动响应”,实现了“指令输入→自主执行→成果交付”的完整流程,是AI Agent的核心竞争力。

2. AI Agent与大模型的核心差异

很多人混淆“大模型”与“AI Agent”,实则二者定位完全不同:传统大模型(如GPT-4、文心一言基础版)是“语言处理工具”,而AI Agent是“自主工作实体”,具体差异如下表:

对比维度 传统大模型 AI Agent
核心目标 文本生成、被动响应指令 自主完成复杂任务
能力范围 聚焦语言理解与生成 整合规划、记忆、工具调用能力
交互模式 单轮/多轮对话(需人工引导) 接收目标后自主推进,无需干预
应用场景 内容创作、简单问答 跨平台任务(如生成报表、客服闭环)
技术依赖 单一LLM模型 LLM+规划模块+记忆系统+工具接口

例如:用大模型“写一份营销文案”需人工提供产品卖点、风格要求;而AI Agent可自动抓取产品数据、分析竞品文案、生成3版方案并标注优化建议,全程无需人工介入。

3. AI Agent的四大设计方式

吴恩达教授提出AI Agent的核心设计框架,覆盖从基础到进阶的全场景,也是当前行业主流实践方向:

  • 反思(Reflection):模型自我校验结果,如DeepSeek-R1可修正数学推理错误,MATH-500测试准确率达97.3%;
  • 工具使用(Tool Use):调用外部工具扩展能力,如调用API查天气、用RPA操作软件;
  • 规划(Planning):拆分复杂任务,如将“组织会议”拆分为“定时间-发邀请-准备材料-记录纪要”;
  • 多智能体协作(Multi-agent Collaboration):多角色智能体分工执行,如Manus的“数据采集Agent+分析Agent+报告Agent”协同完成业务分析。

二、技术突破:DeepSeek与Manus如何重塑AI Agent生态?

2025年AI Agent的爆发,核心源于两大技术突破:DeepSeek-R1解决“推理成本与能力”问题,Manus验证“通用智能体的工程可行性”,二者共同推动行业从“技术探索”走向“产业落地”。

1. DeepSeek-R1:推理模型为AI Agent“降本提效”

DeepSeek-R1作为开源推理模型,其核心价值是为AI Agent提供“高性价比的大脑”,具体影响体现在六大维度:

  • 推理能力升级:通过纯强化学习(RL)突破传统监督微调(SFT)局限,在编程竞赛(Codeforces评级超越96.3%人类)、数学推理等场景展现类人思维,让AI Agent能处理复杂决策任务(如金融风控建模);
  • 部署成本降低:推理成本仅为OpenAI的3%,支持本地化部署,满足企业数据隐私需求(如医疗、金融行业),中小开发者也能负担;
  • 工具调用优化:精准识别工具调用场景(如“查实时股价”需调用财经API),减少无效调用,执行效率提升40%;
  • 交互拟人化:优化多轮对话逻辑,避免“答非所问”,客户服务场景中复杂查询处理满意度提升至89%;
  • 生态赋能:开源模式降低开发门槛,已有超100个创业项目基于DeepSeek-R1构建垂直AI Agent(如法律咨询、智能制造);
  • 国产化优势:打破国外模型垄断,推动中国AI Agent从“规则接受者”向“标准共治者”转变,重塑全球市场格局。

2. Manus:通用智能体的“工程化启示”

Manus虽非底层技术创新,但其“多智能体协同架构”验证了通用智能体的可行性,为行业带来四大关键启示:

  • 技术架构可复用:Manus通过“多代理协同+动态任务调度+安全支撑”三大模块,实现从“指令到成果”的闭环,这一架构被后续产品广泛借鉴(如阿里通义千问Agent、百度文心智能体);
  • 场景落地路径清晰:官方视频展示其在零售电商(自动上架商品)、金融(生成合规报告)、教育(定制学习计划)的应用,证明通用智能体可覆盖多行业;
  • 效率与成本平衡:虽执行任务耗时较长(如生成报告需30分钟),但通过“token消耗优化”降低成本,为中小微企业使用通用智能体提供可能;
  • 推动行业协同:Manus的出圈引发学术、产业、创投界对通用智能体的关注,2025年Q1已有超50家企业推出同类产品,加速技术迭代。

值得注意的是,Manus代表的“通用智能体”当前分两类:一类是类似Manus的“computer use Agent”(通过截图识别GUI元素,调用工具),另一类是“RPA+AI Agent”(基于现有RPA技术适配大模型,体验更流畅),后者因与终端适配更成熟,当前落地效果更优。

三、行业现状:从应用、产品到市场的全景扫描

2025年AI Agent行业已形成“B端为主、C端萌芽、技术多元”的格局,具体可从应用、产品、市场、技术四大维度拆解:

1. 应用现状:B端聚焦效率,C端百花齐放

  • B端:知识库为核心,中型企业最积极

    • 头部企业:构建“企业大脑”架构,整合知识库、业务流程数字孪生(如华为企业云Agent),数据准备效率提升58%,决策耗时减少70%;
    • 中型企业(100-2000人):采用率最高达63%,偏好低代码平台(如Coze、文心智能体平台),快速搭建自动化工作流(如财务报销审核);
    • 小型企业:使用率从2023年的4.6%升至2025年的5.8%,主要依赖开箱即用产品(如实在Agent),降低运营成本;
    • 行业分布:非科技行业(金融、医疗)采用率(90%)已接近科技行业(89%),如医疗AI Agent可自动生成结构化诊断报告,准确率达92%。
  • C端:以“自建+成品”为主,爆款待现

    • 普通用户:通过Coze、智谱清言等平台“一句话创建智能体”(如个人日程管理Agent),或使用成品(如Kimi Agent的文档总结功能);
    • 技术用户:本地部署开源系统(如Dify、Ragflow),结合DeepSeek-R1构建个性化知识库(如程序员的技术文档Agent);
    • 痛点:尚未出现现象级C端产品,核心原因是“场景碎片化”,多数Agent仅解决单一需求(如天气查询、待办提醒)。

2. 产品现状:三大形态主导,技术融合加速

当前AI Agent产品可分为三大类,且呈现“技术整合”趋势:

  • 通用型Agent:如Manus、OpenAI Assistant,支持多场景任务,但执行效率待提升;
  • 垂直领域专家型Agent:如法律领域的Harvey(2025年2月估值30亿美元)、医疗领域的Ada Health,聚焦单一行业,准确率高(如Harvey合同审查准确率达98%);
  • 企业级解决方案:如微软Dynamics 365 Agent、阿里钉钉Agent,整合ERP、CRM系统,实现业务流程自动化(如自动跟进客户订单)。

产品趋势上,三大方向值得关注:

  1. 增强型问答助手普及:ChatGPT、Kimi等升级为“搜索+工具调用”Agent,DeepResearch(OpenAI)、智能检索成为标配;
  2. 语音/Web Agent爆发:2025年Q2已有超30款语音Agent(如小米语音助手Pro)、Web Agent(如自动爬取数据的Agent)推出,覆盖“ hands-free ”场景;
  3. 低代码平台融合:Coze、文心智能体平台向“LLM低代码平台”进化,支持普通用户搭建多智能体协作系统(如“客服Agent+工单Agent”协同)。

3. 市场格局:巨头加码,初创爆发

AI Agent市场正处于“高速增长+激烈竞争”阶段,核心数据与玩家如下:

  • 市场规模:据MarketsandMarkets预测,从2024年的51亿美元增至2030年的471亿美元,复合年增长率(CAGR)达44.8%;
  • 玩家构成
    • 科技巨头:微软(推出8种AI Agent架构)、谷歌(重点发力GUI Agent)、百度(文心智能体平台)、阿里(通义千问Agent);
    • 初创企业:超170家,如CrewAI(多智能体协作)、ServiceNow(企业服务Agent),国内甲子光年2025年4月报告显示,国内初创Agent项目较2024年增长200%;
    • 垂直领域龙头:如金融领域的恒生电子Agent、医疗领域的平安好医生Agent,依托行业资源快速落地。

4. 技术现状:核心技术成熟,创新方向明确

AI Agent的技术生态已成型,核心技术与趋势如下:

  • 基础技术:大语言模型(LLM)是核心,多模态能力(文本+图像+语音)、记忆系统(短期+长期)、工具调用接口(API/RPA)构成基础层;
  • 热门技术
    • MCP协议:Anthropic推出的“模型上下文协议”,标准化应用向LLM提供数据的方式,已获OpenAI、微软支持;
    • Deep Research:OpenAI推出的研究工具,结合深度搜索与模型生成,复杂学术任务处理效率提升60%;
    • Agentic RAG:新一代检索增强技术,动态调整检索策略,解决传统RAG“记忆僵化”问题,知识复用率提升50%;
  • 技术框架:开源与闭源并存,开源项目(如LangChain、LangGraph)超110个,闭源项目(如OpenAI Agent Framework)超105个,覆盖从基础搭建到企业级部署的全需求。

四、企业影响:AI Agent如何重构经营逻辑?

AI Agent并非“锦上添花”的工具,而是通过“降本增效、风险管控、组织革新”重构企业经营,核心体现在三大维度:

1. 业务运营:全流程自动化,效率跃升

AI Agent可覆盖企业“研发-生产-销售-服务”全链路,典型场景包括:

  • 研发:自动生成代码(如百度Comate Agent)、验证算法(DeepSeek-R1辅助数学建模),研发周期缩短30%;
  • 生产:智能制造Agent监控设备传感器数据,预测故障(如某汽车工厂设备停机时间降低82%);
  • 销售:自动跟进客户(如CRM Agent发送个性化邮件)、分析成交概率,销售转化率提升25%;
  • 服务:智能客服Agent7×24小时应答,咨询解决率从65%升至89%(如某银行客服Agent)。

2. 战略决策:数据驱动,精准预判

AI Agent整合内外部数据(如市场报告、企业财报),提供决策支持:

  • 金融企业:Agent实时分析宏观经济数据、股价波动,生成风险报告,决策耗时减少70%;
  • 零售企业:Agent分析消费趋势、库存数据,优化采购计划,库存周转率提升40%。

3. 组织管理:扁平化,降本提效

  • 人力优化:替代重复性工作(如数据录入、发票审核),某互联网公司行政人力成本降低35%;
  • 协作模式:多智能体协同替代跨部门沟通(如“财务Agent+HR Agent”协同处理员工报销),协作效率提升50%。

4. 企业应用模式:三种路径适配不同需求

企业接入AI Agent主要有三种方式,可根据规模与隐私需求选择:

  • 直接使用:适合中小微企业,用现成产品(如实在Agent、Manus),无需技术开发,快速落地;
  • API集成:适合有技术能力的企业,调用第三方API(如DeepSeek API),集成到现有系统(如客服系统);
  • 本地私有化部署:适合大型企业(金融、医疗),用开源框架(如LangChain)+本地化模型(DeepSeek-R1),保障数据安全。

五、挑战与未来:AI Agent的“痛点”与“机会”

尽管行业快速发展,AI Agent仍面临技术与商业挑战,同时也孕育着巨大机会:

1. 当前核心挑战

  • 技术层面:错误容忍度低(如医疗Agent误诊风险)、记忆与上下文管理瓶颈(长任务易“遗忘”)、工具集成协调难(多工具调用易冲突);
  • 商业层面:“模型即应用”趋势可能终结API时代(预计2年內大模型厂商或停止API服务,转向直接提供模型),传统“套壳应用”将被淘汰;
  • 生态层面:标准不统一(如工具调用协议)、用户接受度待提升(部分企业担心“AI替代人工”)。

2. 未来趋势与机会

  • 技术趋势:小样本学习(减少标注数据依赖)、端侧部署(手机/边缘设备运行Agent)、跨模态深度融合(文本+图像+脑机接口);
  • 产业机会
    • 个人层面:“超级个体”崛起,普通人可通过自然语言构建AI Agent创业(无需技术合伙人),如个人知识付费Agent、垂直领域咨询Agent;
    • 企业层面:垂直领域专用模型+Agent结合(如医疗专用模型+诊断Agent),解决“通用模型准确率不足”问题;
    • 生态层面:AI Agent构建平台(如Coze进阶版)将成为核心入口,降低开发门槛,预计2026年80%的企业Agent通过低代码平台搭建。

结语:拥抱AI Agent,成为时代领跑者

比尔·盖茨曾预言“AI Agent将在未来5年内彻底改变我们的生活”,2025年的行业进展已验证这一趋势。对于个人,AI Agent是“生产力放大器”——通过构建个性化Agent(如知识管理Agent、工作流Agent),可实现效率跃升,甚至开启“一人公司”模式;对于企业,AI Agent是“竞争力核心”——通过业务流程自动化、数据驱动决策,可降本增效,在行业竞争中占据先机。

正如DeepSeek-R1的“低成本推理”与Manus的“通用闭环”所证明的,AI Agent的发展速度远超预期。无论是开发者、创业者还是企业决策者,唯有主动学习、积极实践,才能在这场“智能革命”中抓住机遇,成为AI Agent时代的领跑者。

更多技术内容

更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏

实战驱动,掌握大模型开发全流程

智能涌现与 AGI 前瞻,抢占技术高地

上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄

Logo

更多推荐