复试笔试---Agent/Rag八股+OpenClaw
agent智能体是根据自己感知环境、自己思考、自己行动来完成目标的“程序实体”。和传统程序不一样,它不是死记硬背固定程序,而是根据任务和环境反馈,动态决定下一步做什么。现在的Agent一般用大语言模型来当“大脑”作决策。一个完整的Agent系统由四个部分组成:控制中心:用大模型的推理能力,理解复杂指令;规划:把大任务拆分为一个个小步骤,还可以根据结果反思来调整策略;记忆:结合短期上下文(比如你刚刚
Agent
Agent(智能体)是什么?
agent智能体是根据自己感知环境、自己思考、自己行动来完成目标的“程序实体”。和传统程序不一样,它不是死记硬背固定程序,而是根据任务和环境反馈,动态决定下一步做什么。现在的Agent一般用大语言模型来当“大脑”作决策。
一个完整的Agent系统由四个部分组成:控制中心:用大模型的推理能力,理解复杂指令;规划:把大任务拆分为一个个小步骤,还可以根据结果反思来调整策略;记忆:结合短期上下文(比如你刚刚的说话内容)和长期信息(存在向量数据库的历史记录),保持任务的连贯性;动作和工具调用:通过API接口和外部世界交互,可以实现修改代码、查资料等操作。
Agent的运行逻辑:P-A-O循环。感知Perception:先看环境、理解目标;决策Action Selection:在内部规划,选合适的工具和步骤;执行和观察Observation:动手做,然后看结果怎么样;循环:如果没有完成目标,就再走一遍这个流程,直到任务结束。
Agent 是能自主感知、决策、执行任务的程序实体,以大模型为大脑,不靠固定流程,而是动态决策。完整系统包含控制中心、规划、记忆、工具调用四部分,按感知 — 决策 — 执行观察的 PAO 循环运行,直到完成目标。
Agent相关概念
Agent是什么
- LLM 语境下的定义:能自主完成理解需求、规划决策、执行复杂任务的 AI 智能体。
- 经典构成定义(OpenAI 翁丽莲):由大语言模型(LLM)+ 记忆 + 任务规划能力 + 工具使用能力四部分组成的集合体。
Agent中要求LLM需要具备哪些能力
Function Call(工具调用)
- 核心操作:为 LLM 定义专属函数并传递给模型,由 LLM 自主判断是否调用、如何调用该函数。
- 函数定义要求:需明确制定函数名、函数用途描述、参数名、参数描述。
- 执行逻辑:LLM 根据用户问题,先判定工具调用必要性,若需调用则提取对应参数。
- 核心地位:是 Agent 实现工具调用功能的基础,为 Agent 执行复杂任务提供工具支撑。
Plan(规划)
- 核心能力:LLM 针对用户提出的复杂问题,进行任务拆解并规划出解决问题的具体步骤。
- 典型应用:langchain 中的 PlanAndExecute 是该能力的典型实现方式。
- 核心价值:将复杂任务拆解为可执行的步骤,为 Agent 有序完成复杂任务提供行动指引。
memory
- 分类:分为短期记忆和长期记忆两类,是 Agent 的核心组成能力之一。
- 短期记忆:包含工具返回值、已完成的推理路径;实现方式为将相关信息拼接至 prompt 中持续追加,传递给模型。
- 长期记忆:指可被访问的外部长期存储载体,典型示例为知识库。
推理(总结)能力
- 核心目标:为精准回复用户问题,由 Agent 中的 LLM 完成最终的答案推导。
- 核心操作:对工具调用后的结果进行总结梳理或逻辑推理分析。
- 能力价值:是 Agent 将工具调用的原始结果转化为用户可理解的最终答案的关键能力。
Agent的实现方式
- 核心分类:Agent 主流有PlanAndExecute和React两种实现方式。
- PlanAndExecute:先针对用户问题规划出解决问题的全部步骤,再按照规划依次执行完成任务。
- React:采用分步决策模式,仅思考当前步骤的执行动作,依据该步骤的执行结果再推导下一步操作;核心工作流程为Thought(思考)→Action(调用函数)→Observation(接收返回结果) 的循环。
RAG
RAG 是什么?
RAG=Retrieval-Augmented Generation。Retrieval:检索(从外部知识库文档中查找相关信息);Augmented:增强(用检索的外部信息来增强模型);Generation:生成(用大语言模型生成最终回答)。
RAG系统完整的流程:在系统运行前,把各自文档转化为机器能快速检索的格式,存在数据库中。当用户问问题时,把问题转为向量,然后在向量库里找与该问题向量最像的几段文本,把用户的问题和检索到的资料拼接在一起,喂给大模型,让它综合这些资料生成通顺、准确的回答。
RAG 即检索增强生成,先从外部知识库检索相关信息,再用这些资料增强大模型,最后生成准确回答。流程是:文档入库向量化,用户问题转向量检索相似内容,把问题与资料一起给大模型,生成可靠答案。
RAG相关概念
1、向量数据库
- 核心定位:RAG 体系中最重要的基础设施之一,是实现语义检索的关键。
- 传统数据库短板:依赖关键词匹配,对查询精确度要求高,无法识别语义相关内容,易出现检索结果缺失。
- 核心原理:将各类知识及用户查询信息均转化为能代表内容、特征的数字向量(实际应用为几十至几千维),通过向量相似度匹配找到最相关知识,实现语义检索。
- 核心优势:突破关键词匹配的限制,能精准识别语义相关的内容,解决传统检索 “字不同则无结果” 的问题。
- 实际价值:大幅提升检索的精准度和实用性,如 AI 客服可通过它快速匹配用户咨询的语义相关答案,显著提升用户体验。
2、混合检索
- 提出背景:针对向量知识库语义检索的两大短板提出,一是超大数据量下检索速度不及传统关键词检索,二是精准匹配场景中关键词检索的优势更显著(如法律文件措辞检索)。
- 核心原理:RAG 系统中同时结合语义检索和关键词检索,融合两种检索方式的优势,弥补单一检索的不足。
- 核心价值:兼顾检索的语义相关性和精准匹配性,同时平衡检索效率与结果质量,最大化提升检索体验。
- 实际应用:如电商搜索 “无线蓝牙耳机” 时,既通过语义检索匹配相关品类,又通过关键词 “无线蓝牙” 精确匹配,避免推荐不符完整要求的产品,保障检索结果的准确性。
3、分块、嵌入与索引
- 核心目的:RAG 存储知识时的核心处理流程,为实现知识的高效管理与快速检索奠定基础,是向量数据库存储知识的前置关键步骤。
- 分块
- 操作:将原始长文档按固定长度、语义单元等规则拆分为小块;
- 类比:如同把长篇小说拆分为章节 / 小段落,便于精准查找;
- 价值:解决长文本检索效率低、精准度差的问题,适配向量检索的颗粒度要求。
- 嵌入:将分块后的每个文本小块转化为可表征内容特征的向量,并将这些向量存储至向量数据库,是实现语义检索的核心转换步骤。
- 索引:将嵌入后的向量存入高效的检索结构,记录向量位置信息;
- 价值:支持快速的向量相似性计算与检索,大幅提升检索效率。
- 实际应用:如法律咨询平台将法律条文、案例等长文本分块,经嵌入后建立索引,用户查询相关法律问题时,能快速匹配到最相关的文本小块,结合上下文融合生成准确完整的答案。
4、重排序(re-rank)
- 触发场景:RAG 从数据库中检索出多个相关内容后,需进一步筛选最优信息时启动。
- 核心定义:对初步检索结果进行重新排序,核心是评估内容与用户需求的契合程度,将最相关的信息排在前列。
- 核心目的:筛选出相关性最高、准确性最强的内容喂给大模型,直接提升模型回答质量。
- 通俗类比:如同 AI 搜索书籍时,先筛选出一批候选书籍,再按需求契合度排序,方便优先查看最符合心意的书籍。
- 实际应用:广泛用于电商推荐(结合用户实时行为、偏好历史重排商品)等场景,核心价值是提高结果的准确性和实用性。
5、上下文融合
- 核心定义:RAG 将从多个来源检索到的分散知识进行整合,形成全面、连贯的统一内容,作为大模型的输入。
- 核心目的:为大模型提供完整的信息支撑,确保模型输出的回答条理清晰、内容完整,进而生成高质量响应。
- 关键前提:需跨来源检索相关信息(如用户咨询退货问题时,需检索订单信息、退货政策等不同维度内容)。
- 实际应用:广泛用于智能客服等场景,例如用户咨询商品瑕疵退货问题时,通过整合订单状态、退货规则等信息,让模型给出准确且有依据的答复。
6、准确率和召回率
- 核心定位:三者均为衡量 RAG 检索质量的关键指标,其中准确率和召回率是基础指标,F1 值是综合平衡指标。
- 准确率(Precision)
- 定义:检索结果中与用户问题真正相关的内容占比。
- 示例:检索到 10 条知识,8 条相关,则准确率为 80%。
- 核心意义:反映检索结果的 “精准度”,避免无关 / 错误信息干扰(如智能客服需高准确率保障回答质量)。
- 召回率(Recall)
- 定义:知识库中与用户问题所有相关的知识中,被成功检索到的比例。
- 示例:知识库中有 20 条相关知识,检索到 12 条,则召回率为 60%。
- 核心意义:反映检索结果的 “全面性”,避免遗漏关键相关信息。
- 核心矛盾:二者呈 “跷跷板” 关系 —— 过度追求高召回率(如降低检索阈值)可能引入大量无关信息,拉低准确率;过度追求高准确率(如提高检索阈值)可能遗漏部分相关信息,降低召回率。
- F1 值
- 作用:综合评估准确率与召回率,找到二者的平衡点。
- 计算公式:F1 = 2*(准确率 × 召回率)/(准确率 + 召回率)。
- 特点:任一指标过低都会导致 F1 值显著下降,需二者兼顾才能获得较高 F1 值。
7、知识图谱
- 核心定义:以 “节点” 表示各类知识,以连接关系串联相关节点,形成的巨大知识网络,核心是捕捉实体间的关联。
- 核心功能
- 关联实体:清晰呈现不同知识(实体)间的复杂关系,如菜谱、原材料、烹饪方法的关联;
- 推理扩展:基于已有的实体关系,推导潜在关联或缺失信息,实现知识的延伸。
- 核心价值:帮助 RAG 发现更多潜在相关信息,大幅提升检索的准确率和召回率,避免因直接存储信息缺失导致的错误回答。
- 实际应用
- 场景一:菜谱管理中,通过 “菜谱 - 原材料” 关系,快速响应 “用鸡蛋可以做哪些菜” 的查询;
- 场景二:教育数据中,通过 “一年级 - 5 个班级” 的实体关系,推导计算出未直接存储的 “一年级期末平均成绩”。
OpenClaw
OpenClaw的核心定义
- 核心定位:非传统聊天机器人,而是本地优先、云端适配的 AI 自动化代理,以大语言模型为 “大脑”、Skills 插件生态为 “手脚”,专注自主完成具象化任务。
- 核心能力:理解自然语言指令,无需编写复杂自动化脚本,可独立实现网页操作、邮件管理、文档处理、多平台协同等任务。
- 四大核心特点
- 零代码门槛:通过自然语言下达指令,无需掌握 Python/Java 等编程技能;
- 多端适配:支持阿里云服务器、本地设备、无影云电脑等多环境部署;
- 生态扩展:内置 Clawhub 技能市场,提供数百款现成插件,按需安装即可拓展能力;
- 智能决策:能基于大语言模型拆解复杂任务(如将 “整理周报” 拆分为读取邮件、提取信息、排版、生成文档等步骤)并执行。
更多推荐



所有评论(0)