logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Agent Rules 与工具权限 —— 给 Agent 加行为护栏

本文探讨了Agent系统在工具使用规范上的两个核心问题:行为边界与工具可达性,提出通过Agent Rules注入和工具权限管控来解决。当前Skill SOP机制存在三个盲区:跨场景通用约束难复用、规则运维成本高、工具暴露缺乏硬拦截。解决方案包括建立分层规则系统(全局/场景规则)、在dispatch和MCP层添加权限校验,形成P0白名单+dispatch拦截+MCP过滤的三层防御体系。该设计将运营编

#架构
Agent Rules 与工具权限 —— 给 Agent 加行为护栏

本文探讨了Agent系统在工具使用规范上的两个核心问题:行为边界与工具可达性,提出通过Agent Rules注入和工具权限管控来解决。当前Skill SOP机制存在三个盲区:跨场景通用约束难复用、规则运维成本高、工具暴露缺乏硬拦截。解决方案包括建立分层规则系统(全局/场景规则)、在dispatch和MCP层添加权限校验,形成P0白名单+dispatch拦截+MCP过滤的三层防御体系。该设计将运营编

#架构
A2A 协议落地 —— 从“前瞻设计“到“标准化接入“

本文讨论了 Agent 间协作的横向通信问题,提出了 A2A(Agent-to-Agent)协议作为解决方案。A2A 通过标准化接口实现 Agent 能力的自动发现和调用,包含异步任务、Webhook、对话共享和健康检查四层设计。关键设计包括:Agent Card 与 MCP 数据同源、异步任务薄壳模式、轮询与 Webhook 并存、对话共享公共存储和多级健康检查。A2A 与 MCP 分工明确,前

#架构
MCP 协议实践 —— 让 Skill 体系从“私有胶水“走向“标准协议“

本文探讨了Agent系统中长期维护的核心痛点——工具连接层代码易腐化的问题,并提出MCP(Model Context Protocol)解决方案。主要内容包括: 现状分析:当前工具注册需要手动维护多条私有路径,存在认知壁垒和维护成本高的痛点。 MCP标准化方案: 采用JSON-RPC协议统一工具暴露方式 自动注册工具,避免手动映射表 类型注解驱动Schema生成 与主应用共享端口和生命周期 架构优

#架构
MCP 协议实践 —— 让 Skill 体系从“私有胶水“走向“标准协议“

本文探讨了Agent系统中长期维护的核心痛点——工具连接层代码易腐化的问题,并提出MCP(Model Context Protocol)解决方案。主要内容包括: 现状分析:当前工具注册需要手动维护多条私有路径,存在认知壁垒和维护成本高的痛点。 MCP标准化方案: 采用JSON-RPC协议统一工具暴露方式 自动注册工具,避免手动映射表 类型注解驱动Schema生成 与主应用共享端口和生命周期 架构优

#架构
第二篇:不碰模型,意图识别快 9 倍 —— P0→P1→P2 流水线设计

文章摘要:本文提出了一种分层拦截的意图识别优化方案,通过P0规则过滤(关键词匹配)、P1语义重排和P2本地小模型确认的三级流水线,将识别延迟从477ms降至25ms(p50),准确率提升至99%。相比纯LLM方案,该设计在降低成本的同时显著提升效率,并指出大部分LLM调用可通过工程手段替代。核心思想是"让模型只处理必要任务",这一方法论同样适用于RAG等场景的优化。

#人工智能#架构
第六篇:本地模型选型 —— 4 个模型 × 2 种设备 × 2 项任务的全量对比

摘要 模型选型应遵循"刚好够用且最省资源"原则。实验对比了不同规模的Qwen模型在信息提取(要求<500ms)和工具选择(要求<100ms)任务中的表现。结果显示: 信息提取:Qwen3-1.7B和Qwen2.5-3B在GPU上均实现100%值匹配率,但0.5B/1.5B存在编造字段问题。 工具选择:3B模型以96%准确率最优,1.5B达92%,0.5B仅56%-58%。 硬件:GPU加速比达4.

#架构
读者导航 · 知识地图

- 第一篇 · 架构全貌- 第二篇 · 意图识别流水线- 第三篇 · RAG 进化- 第四篇 · HNSW 参数消融- 第五篇 · Reranker & BM25 兜底- 第六篇 · 本地模型选型 & SFT 决策树- 第七篇 · A/B 实验框架- 第八篇 · 人在回路 & 内容安全- 第九篇 · 降级矩阵 & Token 限流- 第十篇 · 纠纷协调 & 可观测性- 第十一篇 · Skills

#架构
第十一篇:Skills 系统与成本分析 —— 从 Demo 到产品的最后一公里

本文探讨了技术架构的价值衡量标准,重点分析了客服Agent系统中的Skill拆分逻辑与GPU成本核算。Skill采用两级拆分:L1(50 tokens内简介)用于构建索引和执行器感知工具,L2(完整流程)按需加载,确保系统扩展性。成本分析显示:共享GPU方案与API调用成本相当但延迟更低(25ms vs 477ms),自购GPU比高端API节省64%。本地部署的核心优势在于延迟可控、零API依赖和

#架构
第一篇:客服Agent 四层架构 —— 一个多Agent客服系统的设计全貌

本文探讨了电商客服Agent系统的架构设计,指出通用RAG问答方案在客服场景存在四大缺陷:意图混合、信息源异构、延迟约束和安全边界。针对这些问题,提出了五个关键架构决策:1)拆分为三个专用执行器(ReAct Agent、GeneralAgent Executor、Direct Tool Dispatch)而非单一Agent;2)放弃LangGraph Supervisor,采用规则+语义匹配降低延

#架构
到底了