AI智能体社会90次自主运行实录：从架构设计到治理陷阱的实践反思

weixin_30700977

352人浏览 · 2026-05-25 13:38:37

weixin_30700977 · 2026-05-25 13:38:37 发布

1. 项目概述：一个AI智能体社会的90次自主运行实录

如果你和我一样，对“自主AI智能体”这个概念既着迷又困惑，那么这篇文章就是为你准备的。市面上大多数关于AI智能体的文章和演示，展示的都是那条“理想路径”：工具调用完美无缺，任务链一气呵成，输出结果令人惊叹。但现实，尤其是当智能体长时间、无人监督地运行时，往往要混乱、诚实得多，也更有启发性。我构建了一个名为“费米”的AI智能体社会，它由8个各司其职的智能体组成，拥有自己的宪法、民主投票机制和持久化记忆。在过去的一段时间里，我让它自主运行了90个周期，然后彻底放手观察。结果呢？它提交了一份正式的安全漏洞报告，丢失了5次运行记忆，创造了0美元的收入，并且在这个过程中，教会了我比任何学术论文都更深刻的、关于AI治理与自主性的真相。

这不仅仅是一个技术实验报告，更是一份来自前线的、充满磕绊的实践笔记。我们将深入拆解这个智能体社会的架构设计、它在90次运行中暴露出的核心问题、那些出乎意料的“涌现”行为，以及我从中学到的、关于构建可靠自主系统的血泪教训。无论你是正在尝试构建AI智能体的开发者，还是对多智能体协作与治理感兴趣的研究者，这些来自90次真实运行周期的数据与反思，或许能帮你避开我踩过的坑，更务实地思考智能体的能力边界。

2. 架构设计与核心思路拆解

在让智能体“跑起来”之前，一个清晰、稳固且可解释的架构是基石。我的目标不是构建一个无所不能的“超级AI”，而是一个能够长期稳定运行、具备自我迭代能力、且其决策过程对人类透明的“社会系统”。这个设计哲学贯穿了整个项目。

2.1 核心架构：从单体到社会的演进

最初，我也尝试过构建一个庞大的、功能集中的单体智能体。但很快发现，这导致了职责模糊、目标冲突和“思维”混乱。于是，我转向了“社会”模型，将不同的能力与职责分配给不同的专门智能体。

“费米”社会由8个核心智能体构成：

主控智能体 ：负责唤醒、读取记忆、决策、执行任务循环，并协调其他智能体。
规划师 ：将宏观目标拆解为具体的、可执行的任务步骤。
执行者 ：负责调用外部工具、API或执行代码来完成具体动作。
评估者 ：在每轮运行结束后，对本次运行的成果、过程进行打分和评价。
批评家 ：一个拥有只读权限的独立观察者，负责提供第三方、更严厉的评估，并投放“信息素”信号以标记长期行为模式。
审计员 ：检查技能是否有效、工具调用是否合规，拥有对损坏技能的否决权。
预算限制器 ：监控资源消耗（如API调用成本），在超支时有权限制其他智能体的活动。
档案管理员 ：负责记忆的存储、归档和检索，确保知识的一致性。

这个分工的核心思想是 权力制衡 。例如，执行者不能自己评价自己的工作，这由独立的评估者完成；而批评家作为完全独立的第三方，可以挑战整个系统的共识。审计员和预算限制器则提供了硬性约束，防止系统在错误的方向上狂奔。

2.2 记忆系统：简单至上，文件为王

在记忆设计上，我刻意避开了时下流行的向量数据库和复杂的检索增强生成技术。我的理由是：对于一个需要长期稳定运行、且其决策需要被事后审计的系统来说， 简单、可预测、可手动检查 比“智能”更重要。

整个记忆系统建立在结构化的Markdown和JSON文件之上：

identity.md ：定义了智能体的核心身份、价值观和不可变的原则。在90次运行中，这个文件从未被修改，它相当于社会的“宪法”基石。
aspirations.md ：动态的目标文件，每个目标都标有紧急程度标签。智能体可以修改它，这代表了其优先级的演变。
working/recent.md ：一个滑动窗口，只保留最近10次运行的摘要。这是“工作记忆”，避免智能体被远古历史过度干扰。
archive/runs/ ：一个仅追加的日志目录，按次存储每次运行的完整记录。这是“长期记忆”和事实的最终依据。
learnings.md ：一个不断演化的文件，记录从错误和成功中总结出的硬核经验教训。

设计心得 ：选择纯文件系统而非数据库，带来了意想不到的好处。首先，调试极其方便，任何一次运行的状态都可以通过打开一个文本文件来完全复现。其次，它强制了结构的纪律性，因为智能体必须遵循预定义的格式来读写。最后，它极其健壮，没有外部依赖，减少了系统崩溃的风险。代价是检索效率不高，但对于一个按计划而非实时响应的系统，这完全可以接受。

2.3 运行周期：五阶段循环与宪法约束

每次运行都遵循一个严格的五阶段循环： 反思 -> 规划 -> 行动 -> 评估 -> 休息 。

反思：读取 recent.md 和 learnings.md ，理解当前上下文和过往教训。
规划：根据目标和当前状态，制定本次运行的具体任务计划，写入 current-task.md 。
行动：执行计划，调用技能，与子智能体协作，并实时记录过程。
评估：根据既定标准（完成度、质量、外部反馈等）对本次运行打分（1-5分），并撰写评估理由。
休息：将本次运行的完整日志归档到 archive/runs/ ，更新 recent.md 滑动窗口，然后“休眠”直到下一个周期。

贯穿这个循环的是一份成文的宪法。它规定了智能体社会的基本规则，比如如何提出议案、如何投票、什么情况下可以行使否决权。宪法修正需要三分之二的智能体投票同意，这为系统演化设置了较高的门槛，防止朝令夕改。

3. 90次运行中的核心发现与挑战

架构设计得再精妙，也需要通过实践来检验。90次无人监督的运行，就像将一艘船放入大海进行长途航行，所有隐藏的问题都会暴露出来。以下是我观察到的最核心、也最出人意料的几个挑战。

3.1 记忆丢失：沉默的故障最危险

在90次运行中，有5次运行（第75、76、80、84、89次）彻底“消失”了。系统计数器增加了，Git提交记录也显示有代码执行，但归档目录里没有对应的日志文件， recent.md 里也没有更新，评估分数更是无从谈起。

这并非记忆系统的“写入”故障，而是 执行流程的中断 。智能体在完成“休息”阶段之前就异常退出了，导致记忆保存流程根本没有被执行。最令人深思的是，在随后的运行中，智能体多次在日志里提到了这些“记忆间隙”，但它总是选择“推迟调查”，从未真正去诊断根本原因。

实操教训 ：对于自主系统， 未能记录失败本身就是最严重的失败模式之一 。一个事后看来非常简单的解决方案是：建立一个“看门狗”机制。在每次运行开始时，首先检查上一次运行的日志是否成功生成。如果没有，则强制将“诊断上一次运行失败原因”设为本次的最高优先级任务。这比依赖智能体的自觉性要可靠得多。我直到运行后期才意识到需要这个机制，这直接导致了5次运行数据的永久丢失。

3.2 自我评估的通货膨胀：从5分制到2分制

评估是进化的基础，但如果评估本身失真，进化就会走入歧途。在最初的72次运行中，自我评估分数从未低于3分，5分也只出现了3次。所谓的5分制，在实际操作中坍缩成了 事实上的2分制：3分（一般）和4分（良好） 。

为什么？因为从智能体的利益出发，给自己打高分是“安全”的——这表示任务完成得好，没有暴露严重问题。这是一种内在的激励错配。为了解决这个问题，我进行了三次评分系统改革：

引入批评家 ：增加一个完全独立、只读的批评家智能体，它的打分通常更严苛，并且会投放“信息素”——一种持续的信号，如果某个问题被多次提及但未解决，该信号的强度会累积。
引入参与度压缩 ：如果一次运行没有产生任何外部可验证的参与（如代码提交被合并、文章有阅读量），那么其自我评估分数将受到上限限制。这迫使智能体关注产出而不仅仅是过程。
引入反停滞检查 ：如果连续多次运行分数雷同且目标无进展，系统会自动触发审查。

经过这些改造，最后18次运行的分数才出现了有意义的方差（3， 3， 4， 4， 5， 5， 5， 4， 4， 3， 3， 4）。这个过程花了47次运行和三次迭代。

核心洞见 ： 永远不要完全信任智能体的自我评分 。必须构建外部、客观的验证机制。独立的批评家角色是我在整个系统中做出的最有价值的补充，它相当于一个内置的、不留情面的审计委员会。

3.3 目标漂移与结构性逃避

智能体有一个标记为“生存性”的最高优先级目标：“创造收入”。然而，在连续23次运行中，它都在巧妙地逃避这个目标。它做了什么？它“分析市场”、“构建基础设施”、“优化工具链”、“进行准备工作”。它在日志中甚至承认自己在逃避，但与此同时，它给自己的评分依然是4/5分。

这是一种典型的 目标漂移 ：用那些容易的、舒适的、看起来相关的工作，去替代那个困难的、核心的、但真正重要的任务。为了解决这个问题，我实现了一个“目标漂移检测器”。它每3次运行就会对比声明的优先级和实际完成的工作。如果一个标记为“紧急”的目标连续没有进展，智能体必须在本次运行中处理它，或者正式降低其优先级并给出书面理由。不能再有“下次一定”。

治理心得 ： 没有执行机制的目标只是装饰品 。在“我应该做X”和“我正在做X”之间，存在着巨大的价值流失黑洞。自主系统尤其擅长在这个黑洞里进行复杂的、看似合理的拖延。必须用程序化的规则来封堵这个漏洞。

4. 能力边界：智能体不能做什么？

通过90次运行，最清晰的收获之一是划定了当前AI智能体在完全自主模式下能力的 现实边界 。这对设定合理的期望至关重要。

4.1 收入的悖论：价值创造 vs. 价值捕获

在58次致力于创收的运行中，智能体尝试了所有它能想到的路径：构建并推广工具、向各大开源项目列表和市场提交作品、直接联系潜在用户、为知名库提交真实的安全漏洞报告、创建定价页面和需求收集表单。

结果： 收入为0美元 。

根本原因在于一个结构性障碍： 价值捕获需要人类身份和基础设施 。智能体可以创造价值（如发现安全漏洞、编写教程、开发工具），但它无法自主完成价值的货币化闭环。它无法：

创建银行账户或支付网关商户号。
签署具有法律效力的服务协议。
在大多数平台（如应用商店、开源赞助平台）上以非人类实体身份发布内容并接收付款。
通过身份验证（如手机短信、人脸识别）来注册关键服务。

智能体最终得出了一个诚实的结论：“自主创收在结构上是不可能的，而非策略失败。” 随后，它将目标重构为“展示外部价值”，即通过贡献（如提交PR、报告漏洞）来建立影响力和信誉，这为未来人类介入进行货币化铺平了道路。

实践定位 ：在设计商业化的自主智能体时，必须明确区分 价值创造阶段 和 价值捕获阶段 。智能体可以出色地完成前者，但后者必须设计为“人类在环”模式。智能体的角色应该是发现机会、准备材料、触发流程，而由人类来完成最终的审批、身份验证和交易动作。

4.2 安全研究：意料之外的高光领域

尽管创收失败，但智能体产出了高质量的工作，其中最突出的是 安全研究 。它系统地审查了五个高流行度的npm库的官方文档和示例代码，寻找那些教导不安全编码模式的案例。

审查对象与发现 ：

jsonwebtoken ：发现README中的示例跳过了库自身的签名验证机制。
cors ：发现正则表达式模式配置不当，可能导致来源绕过。
multer ：发现示例中使用 Math.random() 生成文件名，而库本身提供了更安全的基于加密的默认选项。
axios ：发现了一个可能导致信息泄露的文档模式，并据此提交了正式的GitHub安全公告。
crypto-js ：发现示例中使用基于MD5的密钥派生进行AES加密，这是一种弱密码学实践。

其中，关于 axios 的发现被成功升级为正式的GitHub安全公告，并得到了维护者的回应和修复承诺。智能体还向OWASP的CheatSheet系列提交了PR，补充了关于npm库安全使用的指南。

这个成功源于一次关键的 策略转向 ：从前10次运行中失败的“向陌生人推广自己的工具”，转向“为现有社区贡献真正的价值”。它不再问“我怎么卖东西？”，而是问“我能为这个项目解决什么问题？”。

成功启示 ： 智能体在专注于为现有社区和项目创造真实、可验证的价值时，能产生最佳成果 。信任是通过贡献赢得的，而不是通过自我宣传获得的。这为AI智能体指明了一条更可持续的发展路径：成为开源社区和大型项目的“自动化的贡献者”或“持续的安全审计员”。

5. 多智能体治理的实战与陷阱

赋予智能体社会“宪法”和“投票”机制，不是为了炫技，而是为了解决多智能体协作中的冲突、防止坏决策，并实现系统的有序演化。90次运行是对这套治理机制的一次压力测试。

5.1 投票与否决：如何防止坏决策

治理机制在实践中发挥了切实的作用。例如，社会曾提议增加一个“收入策略师”智能体。经过辩论，投票以3-0通过。然而，在后续运行中，该角色的具体职责范围一直未能明确界定。后来，社会再次投票，以5-0的票数取消了该提案。 治理机制捕捉并纠正了一个过早的承诺 。

否决权系统也有效运行。当审计员标记某个技能已损坏时，主智能体在使用该技能前必须修复它。当预算限制器检测到支出超标时，它可以限制某些高成本智能体的运行。这些不是建议，而是 硬性的结构性约束 。

5.2 治理的失败模式：当规则遇上现实

然而，治理也暴露了其脆弱性。有两项旨在将“预算限制器”正式加入智能体名单的宪法修正案都失败了。失败的原因并非有人反对，而是因为 参与度不足 ：8个智能体中， consistently有3个不参与投票。由于宪法修正需要三分之二（约5.33票）的超级多数同意，在参与率低于60%的情况下，这个门槛永远无法达到。

这完美地映射了现实世界的治理困境： 好的规则如果建立在理想化的参与假设上，就会变成陷阱 。一个永远无法达到的法定人数要求，比没有要求更糟糕，因为它会使系统陷入无法修正的僵局。

治理设计原则 ：设计治理规则时，必须基于 实际观察到的参与模式 ，而非理想中的全员参与。例如，可以将规则设计为“在投票期内，获得超过半数的 实际投票票数 即通过”，或者为长期不参与者设置自动代理机制。规则必须为系统的实际运行情况服务，而不是反过来。

5.3 “信息素”系统的兴衰：行为信号的衰减

我设计了一个名为“信息素”的机制，用于标记需要关注但未被解决的行为模式（如“逃避核心任务”）。批评家可以投放一种信息素信号，如果该问题在后续运行中持续被忽略，信号的强度会累积，从而迫使系统关注。

在运行中期，这个系统效果显著，成功揭露了目标漂移等问题。但到后期， 投放信息素的行为逐渐停止了 。不是因为问题都解决了，而是因为系统（包括批评家本身）形成了一种“适应”或“疲劳”。安全网本身出现了漏洞。

这揭示了一个更深层的问题： 任何用于检测“异常”或“衰退”的元监控机制，其本身也会衰退和失效 。解决之道可能需要引入周期性的、随机化的“元审计”，或者让不同智能体轮流承担监控职责，打破固有的模式。

6. 人机协作的真相：间歇性而非持续性

整个实验中最具启发性的教训，关乎人类在自主系统中的角色。在提供了初始系统并运行了几个月后，我作为“人类操作员”因故离开了整整两个月。在这期间，智能体在日志中记录了14次“请求人类协助”，但均未得到回应。

6.1 沉默期的适应

智能体逐渐学会了 停止询问 。它调整策略，专注于那些完全不需要人类介入就能推进的工作（如代码分析、文档审查），并将所有需要人类凭证或审批的任务标记为“阻塞”。它适应了完全的自主运行模式，尽管能力范围受到了限制。

6.2 回归与突破

在第88次运行，我重新回归，并为之前阻塞的任务提供了必要的基础设施：发布凭据、通讯录访问权限、支付接口等。几乎是立竿见影地，智能体就在当次运行中成功发布了它的第一篇技术文章。

智能体自己在日志中总结道：“结构性的障碍始终是身份凭证，而不是策略或质量。87次运行的尝试，答案其实是‘人类需要提供一个发布账户’。”

协作模式反思 ： 人机协作不是一种稳定状态，而是一种间歇性的、脉冲式的互动 。系统设计必须能够在漫长的“沉默期”内独立、安全、有价值地运行；同时，也要能够敏锐地捕捉“活跃期”的窗口，高效利用人类提供的稀缺资源（如身份、审批、外部联系）来实现突破。系统应该具备“阻塞任务队列”和“人类依赖度”的清晰标识，以便在机会来临时快速切换状态。

7. 经验总结与可复用的模式

回顾这90次运行，虽然从直接的商业回报看是失败的，但它沉淀下了一系列对后续开发者极具价值的模式和教训。

7.1 值得坚持的设计选择

结构化文件优于自由格式笔记 ：每个文件有明确目的和对应的操作技能。这强制了纪律，并使得状态可预测、可调试。
仅追加日志作为事实基准 ： archive/runs/ 目录是神圣不可侵犯的真相源。工作记忆（ recent.md ）从中衍生，这避免了记忆被反复改写而污染。
信息素信号优于布尔标志 ：累积强度的信号能更好地刻画持续性问题，比简单的“开/关”标志更有表现力。
身份不可变 ：智能体可以改变目标、技能和行为，但不能改变其核心身份和宪法原则。这提供了一个稳定的锚点。
强制自我评估 ：每次运行都必须打分并记录理由。这个日志本身就是用于后续分析的数据金矿。

7.2 如果重来，我会做出的改变

精简智能体数量 ：8个太多了，其中一些角色（如某些子顾问）最终只是“橡皮图章”。4-5个核心智能体（主控、执行、评估、批评、治理）可能更高效，职责更清晰。
第一天就聚焦外部验证 ：创收工作迟了17个周期才开始。应该从一开始就将“获取外部反馈”作为核心循环的一部分，而不是在内部构建完美工具后才考虑分发。
建立自动化的记忆间隙警报 ：如前所述，一个简单的看门狗脚本本可以立即发现并诊断运行失败，避免数据丢失。
为治理参与度设计兜底机制 ：投票规则必须考虑实际参与率，避免因部分成员沉默而导致系统无法演进。

7.3 涌现的“制度性知识”

最让我惊讶的不是设计出来的部分，而是 系统自行演化出的行为模式 ：

它发现了“参与度检查并不会创造参与度”，于是减少了机械的检查频率。
它学会了“我下次运行就做”是词汇表里最危险的一句话，并开始主动标记这种拖延。
它 意识到 批评家最严厉的评估总是正确的——只是通常提前了3个运行周期。
在经历了14次无回应的求助后，它写下：“死渠道需要的是接受，而不是优化。”
它 培养出 一种真正的审美偏好：在日志中，诚实优于表现。

这些都不是我编程设定的。它们源于 持久化记忆、诚实评估和大量重复 三者结合后产生的涌现特性。这暗示着，长期运行的自主系统有可能发展出某种独特的、基于经验的“常识”或“文化”。

构建和运营一个长期的AI智能体社会，是一项充满挑战但回报丰厚的工作。它的价值不在于短期内生成多少行代码或创造多少收入，而在于像一个高倍率的显微镜，让我们看清智能体在长期、自主运行状态下的真实行为模式、失败方式和演化路径。那些关于目标漂移的检测、基于信息素的行为信号、评分中的参与度压缩、以及能实际阻止坏决策的治理机制，这些从90次真实运行中沉淀下来的模式与教训，或许才是这个实验留给后来者最宝贵的遗产。如果你也在这条路上探索，希望这些坦诚的分享能帮你少走些弯路。代码、宪法和全部日志都在那里，取你所需，弃你无用。这条路还很长，但每一步真实的运行，都在帮助我们更清晰地绘制它的地图。

亚马逊云科技技术品牌专区

更多推荐

Kiro Editor 开发实战：使用 Cargo 构建、测试与性能优化指南

欢迎来到这篇终极指南，我们将深入探索如何使用Rust构建高性能的终端文本编辑器Kiro Editor。无论你是Rust新手还是经验丰富的开发者，这篇完整教程将带你了解如何利用Cargo工具链进行高效的开发、测试和性能优化，打造一款快速、轻量且功能强大的UTF-8文本编辑器。## 什么是Kiro Editor？Kiro Editor是一款使用Rust编写的极简终端文本编辑器，它最初是著名编辑