
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文系统介绍了智能体评估体系,重点分析了三大核心评估场景:工具调用能力(BFCL基准)、通用AI助手能力(GAIA基准)和数据生成质量评估(AIME数学题生成)。BFCL采用AST匹配算法评估函数调用准确性,GAIA通过466个真实世界任务测试智能体综合能力,数据生成评估则结合LLM Judge、Win Rate和人工验证三种方法。评估体系采用模块化设计,支持多模态输入,既包含精确的技术指标(如准
摘要: "Skills"标志着AI Agent落地的关键转变:从追求模型智商转向构建稳定的「流程资产层」。其核心价值在于将隐性经验转化为可复用、可版本化、可治理的模块(含checklist、模板、校验器等),通过确定性组件降低长链路任务中的方差(如步骤遗漏、约束丢失等问题)。Skills通过按需加载、状态外部化等机制解决context rot问题,并推动三个发展方向:1)Ski
Agentic RL(基于强化学习的智能体训练)传统监督学习存在三个问题1、数据质量决定训练质量,模型只能模仿,难以超越2、缺乏探索能力,只能被动学习人类提供路径3、难以优化长期目标,无法精确优化多步推理强化学习提供了新的可能性。通过让智能体自主生成多个候选答案并根据正确性获得奖励,它可以学习哪些推理路径更优、哪些步骤是关键,甚至发现比人类标注更好的解题方法[8]。
摘要:本文解析了MCP、A2A和ANP三种协议的核心设计理念与应用场景。MCP通过标准化接口实现智能体与外部系统的可靠交互,解决数据接入与幻觉问题;A2A采用对话机制协调多智能体协作,处理复杂任务的拆解与对齐;ANP则从网络拓扑角度保障系统的可扩展性与容错能力。在智能客服系统中,三者可协同工作:ANP负责请求路由与扩缩容,A2A管理多智能体协作流程,MCP提供数据查询与工具调用能力。这种分层架构既
在前面的章节中,我们学习了如何使用现有的 MCP 服务。并且也了解到了不同协议的特点。现在,让我们学习如何构建自己的 MCP 服务器。10.5.1 创建你的第一个 MCP 服务器(1)为什么要构建自定义 MCP 服务器?虽然可以直接使用公开的 MCP 服务,但在许多实际应用场景中,需要构建自定义的 MCP 服务器以满足特定需求。主要动机包括以下几点:封装业务逻辑:将企业内部特有的业务流程或复杂操作
本文系统阐述了上下文工程的理论与实践。在理论层面,揭示了LLM面临的"上下文腐蚀"现象,提出压缩整合、结构化笔记和子代理架构三大策略来管理有限注意力预算。工程实践方面,介绍了ContextBuilder的GSSC流水线、NoteTool的结构化笔记系统和TerminalTool的安全命令行工具,构建了分层设计的上下文管理体系。文章强调智能筛选、安全机制和人机协作的重要性,为构建
RAG(检索增强生成)系统通过结合信息检索和文本生成技术提升回答质量。其发展经历了三个阶段:朴素RAG(基于关键词匹配)、高级RAG(引入语义检索)和模块化RAG(智能化、模块化)。系统架构包含多模态文档载入、智能分块和向量存储等模块。高级检索策略包括多查询扩展(生成多样化查询)、假设文档嵌入(用伪答案检索)和扩展检索框架(整合多种策略)。这些技术使RAG系统能够更准确地检索相关信息并生成高质量回
本文介绍了智能体记忆系统与RAG(检索增强生成)的设计与实现。记忆系统通过四种类型(工作记忆、情景记忆、语义记忆、感知记忆)解决对话遗忘、个性化缺失等问题;RAG系统则通过文档处理、向量检索等环节克服模型知识局限性。二者协同工作,既保留对话历史,又能检索外部知识,提升智能体的持续学习能力和回答准确性。系统采用分层架构,支持多模态处理,并通过统一嵌入服务保证检索质量,最终实现更智能、可靠的对话体验。
Function Calling = LLM 的 Action HeadMCP = 世界模型的 Action Space 定义动态占比不同场景的可编辑性世界模型的控制接口是完全同构的问题。
本文介绍了工具(Skill)的创建与注册流程。主要内容包括:1) 定义工具函数并创建注册表;2) 注册工具时需指定名称、描述和功能;3) 通过Registry类管理工具注册;4) 执行工具时的调用方法。文章提供了代码示例,展示了如何创建一个简单的计算器工具并注册到系统中,最后通过名称调用执行该工具。整个流程涵盖了工具定义、注册到使用的完整生命周期。







