
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
命令审批机制:用户可配置命令白名单/黑名单,Agent 执行高风险命令前需获得用户批准DM Pairing:消息平台对话需要配对验证,防止未授权用户向 Agent 发送指令Memory 安全扫描:写入 Memory 前检测 prompt injection、凭证泄露等威胁模式Skill 安全扫描:外部 Skill 安装前检测数据泄露、破坏性命令等风险容器隔离:6 种终端后端中,Docker/Sin

命令审批机制:用户可配置命令白名单/黑名单,Agent 执行高风险命令前需获得用户批准DM Pairing:消息平台对话需要配对验证,防止未授权用户向 Agent 发送指令Memory 安全扫描:写入 Memory 前检测 prompt injection、凭证泄露等威胁模式Skill 安全扫描:外部 Skill 安装前检测数据泄露、破坏性命令等风险容器隔离:6 种终端后端中,Docker/Sin

微调 = 在一个已经学会"通用语言能力"的预训练大模型基础上,用少量特定数据继续训练,让它学会新的技能或适应新的场景。预训练(通用能力)—— 花费千万美元,数月时间↓SFT 监督微调(学会执行指令、掌握领域知识)—— 花费数百美元,数小时↓对齐训练(学会区分好坏、安全负责地回答)—— 花费数百美元,数小时↓部署服务每一步都在前一步的基础上做增量优化。你不一定每一步都需要——很多场景只做 SFT 就

问题:如何让机器处理和生成人类语言?老路(1990-2016):RNN → 逐字处理,记忆短LSTM → 记忆好点,但无法并行Seq2Seq + Attention → 能回头看了,但主体还是 RNN转折(2017):Transformer = 纯注意力架构核心创新:自注意力让所有词直接交互,完全可并行三个方向(2018-至今):Encoder-only(BERT)→ 理解任务Decoder-on

精确反馈显著优于无反馈或模糊反馈——在复杂多Bug任务上,精确的失败信息+root cause分析+预防性提示让模型一次修复关联Bug(2轮 vs 4轮)。PID控制信号提供了结构化的"反馈强度"决策框架——u=0.285告诉你"轻度修改就够",避免了每次都"请大幅重写"的冲动。但诚实说,目前实验中PID数学公式的贡献可能不如"精确反馈内容"本身大。简单任务不需要这些——先评估再决定。首轮通过率>

AI Agent 的核心问题已经从“模型会不会”转向“组织能不能让它安全地做”。编程 Agent 先成熟,是因为代码库、测试、终端、PR 和 CI/CD 天然构成了一个 Agent 可读、可执行、可验证的环境。企业知识工作慢一些,是因为上下文分散、系统割裂、权限复杂、流程靠人脑补齐。把组织上下文结构化、元数据化、权限化。把关键系统通过 API、MCP 或工具层暴露给 Agent。把高风险动作放进审

这类工具更新太快,版本、价格、模型支持和功能名都会变。先定入口:终端、IDE、GitHub、消息渠道,哪个最贴近你的真实工作?再定权限:它默认能做什么,什么动作需要审批,是否有沙箱?再定记忆:项目规则、用户偏好、团队知识如何沉淀和纠错?再定扩展:MCP、Hooks、Skills、插件市场,哪个对你的团队最可维护?最后看成本:订阅费、模型费、迁移费、治理费、运维费都要算。

AI Agent 技术栈可以用一句话压缩:模型调用是地基,RAG 解决数据,工具解决行动,编排解决流程,观测评估解决生产。只是使用 AI 做工作:用 Codex / Claude Code。只是调 Claude:用 Anthropic Client SDK。要复用 Claude Code 能力开发 Agent:用 Claude Agent SDK。要做通用多模型 Agent 应用:用 LangCh

回到开头的问题:智能体真的需要 RAG 吗?答案是:智能体需要接地,不一定需要 RAG。RAG 是接地层里的一个重要工具,尤其适合企业非结构化知识问答,但它不能替代工具调用、数据库查询、长上下文和记忆系统。理解这一点,就不会陷入两个极端。一个极端是把 RAG 神化,好像所有企业 AI 问题都能靠“向量库 + Prompt”解决。这个想法忽略了检索质量、权限、新鲜度、评估和结构化数据的复杂性。另一个

文章摘要 本文探讨AI多智能体系统落地的关键问题与实用方法。作者指出常见的误区是盲目增加Agent数量,而忽视系统复杂度带来的成本。文章提出三个多智能体真正适用的场景:上下文保护、并行探索和专业分工,强调应根据上下文边界而非流程阶段来拆分Agent。重点介绍了Anthropic的Harness设计模式,通过生成-评估闭环将多Agent系统工程化,使用Sprint Contract确保目标明确和可测








