大模型智能体应用:麦肯锡六大实战经验总结!
麦肯锡QuantumBlack团队基于50多个智能体AI项目及市场案例,总结了Agentic AI应用的六大经验:1) 关注工作流而非智能体本身;2) 智能体不是万能药,需根据任务特点选择合适技术;3) 重视评估和用户信任,杜绝"AI垃圾";4) 确保每个步骤可追踪可验证;5) 开发可复用的智能体组件;6) 人类角色虽变但仍不可或缺。这些经验能帮助企业成功从Agentic AI中获取价值。
简介
麦肯锡QuantumBlack团队基于50多个智能体AI项目及市场案例,总结了Agentic AI应用的六大经验:1) 关注工作流而非智能体本身;2) 智能体不是万能药,需根据任务特点选择合适技术;3) 重视评估和用户信任,杜绝"AI垃圾";4) 确保每个步骤可追踪可验证;5) 开发可复用的智能体组件;6) 人类角色虽变但仍不可或缺。这些经验能帮助企业成功从Agentic AI中获取价值。
作者:麦肯锡 QuantumBlack 团队**** 在Agentic AI的革命开始一年后,我们清楚地认识到:要真正做好这项工作,必须付出艰辛的努力。
原文地址,本文由ThinkInAl社区翻译: https://www.mckinsey.com/capabilities/quantumblack/our-insights/one-year-of-agentic-ai-six-lessons-from-the-people-doing-the-work
智能体企业转型有望实现前所未有的生产力提升。虽然一些公司在这方面取得了早期成功,但更多企业发现很难从投资中获得价值。有些情况下,它们甚至在走回头路——在智能体失效的地方重新雇佣人工。
这些挫折是任何新技术发展的必然过程,我们在其他创新中也见过类似的情况。为了总结早期的经验教训,我们深入研究了麦肯锡主导的50多个智能体AI项目,以及市场上的数十个其他案例。我们将分析结果总结为六大经验,帮助企业领导者成功从Agentic AI 中获取价值。
第一条:重点不是智能体,而是工作流
要通过Agentic AI 实现业务价值,必须改变工作流程。然而,很多组织过于关注智能体或智能体工具本身。这往往会产生看起来很厉害但实际上无法改善整体工作流程的智能体,最终价值令人失望。
那些专注于从根本上重新设计整个工作流程——也就是涉及人员、流程和技术的各个环节——的智能体AI项目更容易成功。理解智能体如何在每个环节发挥作用,这才是创造价值的关键。人员仍然是完成工作的核心,只是现在有了不同的智能体、工具和自动化系统来协助。
重新设计工作流程的重要起点是梳理流程并找出用户的核心痛点。这一步对于设计能够减少无用功、让智能体和人员高效协作实现业务目标的系统至关重要。这种协作可以通过学习循环和反馈机制实现,形成自我强化的系统。智能体使用得越频繁,就会变得越聪明、越贴合需求。
以一家正在升级合同审查流程的法律服务公司为例。该公司所在领域的法律推理在不断演进,新的判例法、司法管辖权的细微差别和政策解释层出不穷,很难将专业知识固化成代码。
考虑到这种自然变化,团队设计的智能体系统能够在工作流程中学习。比如,文档编辑器中的每个用户修改都会被记录和分类。这为工程师和数据科学家提供了丰富的反馈信息,用来训练智能体、调整提示逻辑、充实知识库。随着时间推移,智能体就能掌握新的专业知识。
专注于工作流程而非智能体本身,让团队能够在合适的节点部署合适的技术,这在改造复杂多步骤工作流程时尤为重要。比如保险公司通常有复杂的调查工作流程,涵盖理赔处理、承保等多个步骤,每个步骤需要不同类型的活动和认知任务。公司可以通过有针对性地组合规则引擎、分析AI、生成式AI和智能体来重新设计这类流程,所有组件都基于统一的编排框架(如开源的AutoGen、CrewAI和LangGraph)。在这种情况下,智能体充当编排者和集成者,调用工具并将其他系统的输出整合到上下文中。它们是统一整个工作流程的粘合剂,让流程能够以更少的人工干预实现闭环。
第二条:智能体不是万能药
AI智能体能做很多事,但这不意味着什么都应该用智能体。很多领导者没有仔细分析需要完成的工作,也没有考虑智能体是否真的是完成该工作的最佳选择。
为了避免投资浪费或增加不必要的复杂性,企业领导者应该像组建高效团队一样来考虑智能体的角色。关键问题是:"需要完成什么工作?每个潜在的团队成员——或智能体——有什么特长,如何协作才能实现目标?"很多业务问题其实可以用更简单的自动化方法解决,比如规则引擎、预测分析或大语言模型提示,这些方案可能比智能体更可靠。
在急于上马智能体方案之前,企业领导者应该先评估任务需求。具体来说,就是要搞清楚:流程的标准化程度如何、需要处理多少变化、哪些工作最适合智能体来做。
从某种程度上说,这些问题比较直接。比如,低变化、高标准化的工作流程,如投资者准入或监管披露,往往管控严格且逻辑可预测。这种情况下,基于不确定性大语言模型的智能体可能不但没有价值,反而会增加复杂性和不确定性。
相反,高变化、低标准化的工作流程就很适合用智能体。比如某金融服务公司部署智能体来提取复杂的金融信息,减少了人工验证的工作量,简化了流程。这些任务需要信息汇总、验证检查和合规分析——正是智能体擅长的领域。
关键是不要陷入"用智能体"或"不用智能体"的二元思维。有些智能体擅长特定任务,有些能帮助人们更好地工作,很多情况下其他技术可能更合适。重点是找出哪个工具或智能体最适合具体任务,人员如何与它们最有效地协作,如何组合智能体和工作人员来实现最大产出。人员、智能体和工具的良好协作才是价值创造的秘诀。
第三条:杜绝"AI垃圾",重视评估和用户信任
团队在部署AI智能体时最常遇到的问题是:系统在演示时看起来很棒,但真正使用的人却很沮丧。经常听到用户抱怨"AI垃圾"或输出质量差。用户很快就会对智能体失去信任,采用率很低。自动化带来的效率提升很容易被信任缺失或质量下降抵消掉。
这个反复出现的问题给我们一个宝贵教训:公司应该像培养员工一样大力投入智能体开发。正如一位业务负责人说的:"让智能体上岗更像是招聘新员工,而不是部署软件。"智能体需要明确的职责描述、系统的培训以及持续的反馈,这样才能不断提升效果。
开发有效的智能体是个挑战性工作,需要结合具体专业知识来创建评估标准(即"evals"),并为特定任务制定足够详细的最佳实践。这种实践既是智能体的培训手册,也是性能测试标准,确保它按预期执行。
这些实践可能存在于标准操作规程中,或者是员工头脑中的隐性知识。在梳理这些实践时,重点要关注顶尖表现者和普通员工的差别。对销售代表来说,这可能包括如何引导对话、处理异议、匹配客户风格等。
关键是,专家必须持续参与测试智能体的表现,不能"一次部署,终身不管"。这种对评估的投入要求专家实际写出或标注期望的(以及不期望的)输出结果,对于复杂智能体可能需要成千上万个样本。通过这种方式,团队可以评估智能体的对错程度并进行必要调整。
一家全球银行在改造客户尽调和信贷风险分析流程时就采用了这种方法。每当智能体对合规准入指引的建议与人工判断不一致时,团队就会找出逻辑缺陷,改进决策标准,重新测试。
比如有一次,智能体的初始分析过于笼统。团队提供反馈后,开发部署了额外的智能体,确保分析深度能在合适的粒度上提供有用洞察。他们的做法之一是连续多次问智能体"为什么"。这种方法确保了智能体的良好表现,大大提高了人们接受其输出的可能性。
第四条:让每个步骤都可追踪可验证
当只有少数几个AI智能体时,检查它们的工作、发现错误相对容易。但随着公司部署成百上千个智能体,这项任务就变得很有挑战性了。雪上加霜的是,很多公司只跟踪最终结果。所以当出错时——扩展智能体必然会出错——很难准确定位问题所在。
智能体的性能应该在工作流程的每个步骤都得到验证。在工作流程中内置监控和评估机制,能让团队及早发现错误、改进逻辑,即使在智能体部署后也能持续改善性能。
比如在一个文档审查工作流程中,某法律服务公司的产品团队发现系统遇到新案例时准确率突然下降。但由于他们在构建智能体工作流程时就加入了可观测性工具来跟踪每个步骤,团队很快找到了问题:某些用户群体提交的数据质量较低,导致解读错误和后续建议偏差。
有了这个洞察,团队改进了数据收集流程,为上游相关方提供了文档格式指引,调整了系统的解析逻辑。智能体性能很快就恢复了。
第五条:最好的用例就是复用用例
在推进智能体AI的过程中,公司往往为每个确定的任务都创建专门的智能体。这可能造成严重的重复和浪费,因为同一个智能体通常可以完成多个共享相似操作(如摄取、提取、搜索、分析)的不同任务。
决定在构建可复用智能体方面投入多少(相对于执行单一特定任务的智能体)类似于经典的IT架构问题:公司需要快速构建,但不能锁定会限制未来能力的选择。如何平衡往往需要大量判断和分析。
识别重复性任务是个不错的起点。公司可以开发能在不同工作流程中轻松复用的智能体和智能体组件,让开发人员容易调用。这包括开发集中化的验证服务(如大语言模型可观测性或预审批提示)和资产(如应用模式、可复用代码、培训材料),让它们容易定位和使用。将这些能力整合到统一平台至关重要。根据我们的经验,这有助于几乎完全消除通常需要的30-50%的非必要工作。
第六条:人类依然不可或缺,但角色和人数会变
随着AI智能体不断普及,人类将扮演什么角色这个问题引发了很多焦虑——既担心工作安全,又对生产力提升抱有很高期望。这导致了对人类在当今许多工作中角色的截然不同的观点。
需要明确的是:智能体能完成很多工作,但即使智能体和人类所做的工作类型会随时间变化,人类仍将是劳动力的重要组成部分。人员需要监督模型准确性、确保合规、运用判断力、处理边缘情况等。如前所述,智能体并不总是最佳答案,因此需要人员与机器学习模型等其他工具配合工作。不过,特定工作流程中的人员数量确实可能发生变化,用智能体改造工作流程后通常会减少。企业领导者需要像管理任何变革项目一样管理这些转换,深思熟虑地分配训练和评估智能体所需的工作。
我们经验中的另一个重要教训是,公司应该在重新设计工作时深思熟虑,让人员和智能体能够良好协作。没有这种关注,即使最先进的智能体项目也可能出现静默故障、错误叠加和用户抵触。
以前面提到的那家想用智能体做法律分析的法律服务公司为例。在设计工作流程时,团队花时间确定在哪里、何时以及如何整合人工输入。比如,智能体能够高精度地整理核心诉求和金额,但考虑到这些诉求对整个案件的核心重要性,律师进行双重检查和批准是必要的。
类似地,智能体能够为案件推荐工作计划方案,但考虑到决策的重要性,人员不仅要审查还要调整建议。智能体还被设定为突出显示边缘情况和异常,帮助律师形成更全面的观点。在流程最后仍然需要有人在文件上签字,用个人的执照和资质为法律决定承担责任。
这种人机协作设计的重要组成部分是开发简洁的可视化用户界面,让人们能够轻松与智能体互动。比如一家财产意外险公司开发了交互式可视元素(如边界框、高亮、自动滚动)来帮助审查员快速验证AI生成的摘要。当用户点击某个洞察时,应用会直接滚动到正确页面并高亮相关文本。这种对用户体验的关注节约了时间,减少了疑虑,建立了对系统的信心,用户接受度接近95%。
AI智能体领域发展迅速,我们肯定还会学到更多经验。但如果公司不以学习的心态(并付诸实践)来推进智能体项目,很可能会重复错误,拖慢进展。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
01.大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)