一、Agent原理剖析

什么是Agent

简单来讲,就是让LLM具备和人一样的思考方式,然后调用工具去执行动作

举个例子:

现在要写一份《运维平台能力提升》的PPT,上来一口气框框的写了20页,很难写出全面、清晰的材料。

如果先规划一下要写哪些内容(平台功能、核心技术、优势)、每个内容大概多少页、规划每页的布局、然后再去写,再写完一页之后进行反思和检查(内容是否全面、布局是否合理),最后就可以写出很完整的材料。

让大模型先思考,再行动,再反思,再改正。依照这个模式去工作,这也就是Agent的工作原理。

Agent设计模式

自我纠错:反射模式允许AI Agent审视自身生成的输出,并进行自我修正。这种自我监督的能力使得AI能够在执行任务时不断优化策略,提高准确性和效率。例如,一个AI Agent 可能会生成一段代码,然后自我检查并修 复潜在的错误,从而提升代码质量。

工具使用:工具使用模式是指AI Agent能够调用外部工具和API来增强自身的功能。这种模式使得AI能够 超越自身的知识库,通过与外部系统的交互来获取信息、执行操作或生成内容,极大地扩展了AI的应用范围和灵活性。

思维链方式:规划模式则赋予AI Agent将复杂任务分解为多个步骤并有序执行的能力。通过这种方式,AI 能够更系统地处理问题,制定出有效的行动计划,并按照计划逐步推进任务完成。这在需要长期思考和策略部署的任务中尤为重要,如市场分析或项目管理。

多Agent协作:多个AI Agent之间的合作。通过这种模式,不同的AI Agent可以扮演不同的角色,共同完成一个复杂的任务。这种协作不仅能够模拟真实世界中的团队工作流程,还能够通过代理间的互补和协同作用,提高整体的执行效率和创新能力。

Agent架构设计理念

在这里插入图片描述

明白Agent的设计模式之后,就可以设计出Agent。

如图是一个ChatSQLAgent,主要能力是实现Text2SQL,包含4个核心能力:

  • Plan:让LLM具备规划能力,具备自主思考、自我纠错的能力,主要通过Prompt来实现;
  • Tools:让LLM具备执行动作的能力,可自定义可使用MCP,提供大模型能力;
  • Action:Agent的调用,支持多轮对话、危险操作人工确认;
  • Memory:让LLM具有记忆,可以联系上下文来回答用户的问题,也可以引入RAG;

二、Agent架构落地方案

方案 技术选型
适合公司内部快速实现一些简单的需求,但是不开源。 COZE(扣子),Dify等
适合公司内部快速一些一些需求,可以基于它进行二次开发。 MetaGPT,AutoGen
适合专职的做大模型应用开发工程师 LangChain(Agents,LangGraph) Spring AI Alibaba
适合专职的做大模型应用开发工程师 自研框架

本人后续系列文章主要围绕第3点,LangChain、LangGraph展开分享。

三、OpenAI o1模型对Agent发展的作用

在这里插入图片描述

在Agent架构汇总可以看到,LLM强大的推理能力是非常重要的,思考能力和选择正确的工具去执行都需要依靠推理能力,o1模型正是具备了这种推理能力,具备了很强的逻辑思维能力,为Agent的落地提供了强大支撑。

后续又出了很多具备思维、逻辑推理能力的模型,能力比传统大模型强很多,但是也存在响应时间长、成本高的缺点。

Logo

更多推荐