
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
特性PPODPOGRPODAPO需要奖励模型✅❌❌❌需要 Critic✅❌❌❌训练复杂度最高低中中显存占用最大最小中中探索能力强弱中强数据需求在线生成离线偏好对在线生成在线生成代表模型ChatGPTZephyr最新研究适用场景追求极致效果数据充足时性价比优先最新前沿研究提出方OpenAIStanfordDeepSeek2025 学术界。
特性PPODPO流程两步(奖励模型 + PPO 微调)一步(直接偏好优化)复杂度高(需训练奖励模型)低(直接优化)稳定性可能"钻空子"骗取高分更稳定适用通用 RL 场景LLM 与人类偏好对齐。
特性PPODPO流程两步(奖励模型 + PPO 微调)一步(直接偏好优化)复杂度高(需训练奖励模型)低(直接优化)稳定性可能"钻空子"骗取高分更稳定适用通用 RL 场景LLM 与人类偏好对齐。
本文介绍了为AI Agent构建完整记忆系统的关键设计原则与实施方案。记忆系统采用分层架构(工作记忆/短期记忆/长期记忆),通过权重标记(⭐⭐⭐/⭐⭐/⭐)和热度机制(🔥)实现智能记忆管理。核心组件包括engram.md(权重记忆)、current.md(待办事项)和每日日记,采用启动序列按需加载以优化上下文窗口使用。系统通过自动维护机制(热度衰减、定期清理)保持高效运行,确保重要信息持久保存而
本文介绍了为AI Agent构建完整记忆系统的关键设计原则与实施方案。记忆系统采用分层架构(工作记忆/短期记忆/长期记忆),通过权重标记(⭐⭐⭐/⭐⭐/⭐)和热度机制(🔥)实现智能记忆管理。核心组件包括engram.md(权重记忆)、current.md(待办事项)和每日日记,采用启动序列按需加载以优化上下文窗口使用。系统通过自动维护机制(热度衰减、定期清理)保持高效运行,确保重要信息持久保存而
特性ADKLangChainLangGraph短期记忆长期记忆无内置BaseStore语义检索需集成向量数据库Store + 嵌入索引状态更新方式自动(memory.save_context)手动(store.put)托管服务无无推荐场景Google 生态生产部署快速原型开发复杂状态管理。
Function Calling 是 OpenAI 提出的 LLM 与外部工具交互协议,通过结构化 JSON 实现功能调用。其核心流程分为四步:1) 定义工具信息并发送给 LLM;2) LLM 返回包含函数名和参数的 JSON;3) 本地代码执行对应函数;4) 将执行结果返回 LLM 继续推理。该协议使 LLM 能够通过标准化格式请求外部功能,而实际执行由调用方完成。文中提供了完整示例代码,展示了
Manager 本身是一个特殊 Agent,prompt 中包含所有下属 Agent 的 role/goal 描述,让它自主决策。每次执行 Task 时,历史对话会拼入 prompt,让 Agent "记住"之前做过什么。底层的"智能"全部来自 LLM,CrewAI 做的是编排和调度。本文从底层源码角度解析其运行机制。每个 Task 的执行底层用的是。Agent 没有魔法,核心就是。CrewAI
摘要:智能体规划模式解析 规划是智能体从被动反应转向主动策略执行的关键能力,通过目标导向、动态生成和适应性三大特征,将复杂任务拆解为可管理步骤。规划适用于流程自动化、自主导航、信息合成和多步骤支持等场景,需在灵活性与可预测性间权衡。代码示例展示了CrewAI的规划者智能体实现,强调先计划后执行的流程设计。Google DeepResearch和OpenAI API则展示了多步骤研究智能体的协同规划
摘要: 本章探讨了AI工具使用(函数调用)的核心概念与实现方法,使AI从被动应答升级为主动执行任务。工具调用通过六步流程(定义→决策→生成→执行→返回→处理)突破LLM的三大限制(知识时效性、执行能力、计算能力)。应用场景涵盖信息检索、API交互、计算分析、通讯发送、代码执行及设备控制。代码示例展示了LangChain(装饰器定义工具+AgentExecutor管理)和CrewAI(角色驱动Age







