AI代理安全规则引擎：构建可控智能体的“交通法规”

在大型语言模型（LLM）驱动的自主代理系统中，行为可控性与安全性是工程落地的核心挑战。传统依赖提示词的事后控制模式存在不可靠与滞后性缺陷，而规则引擎技术通过“规则优先，执行在后”的范式，为代理决策循环嵌入实时校验层，实现了从事后纠错到事前预防的根本转变。该技术通过原子规则、组合策略与上下文感知引擎，对工具调用、数据访问、内容生成等关键动作进行约束，其价值在于为AI代理提供确定性的安全护栏，确保其行

邹子乔

231人浏览 · 2026-04-25 09:53:30

邹子乔 · 2026-04-25 09:53:30 发布

1. 项目概述：当AI代理需要“交通规则”

最近在折腾AI代理（Agent）的朋友，估计都遇到过类似的头疼事：你精心设计了一个能联网搜索、能调用API、能处理复杂任务的智能体，结果它要么在执行任务时“放飞自我”，跑偏到无关紧要的细节里；要么在涉及敏感操作时，像个愣头青一样横冲直撞，让人捏一把汗。比如，你让它帮你分析一份公开财报，它可能突然想去调用一个需要高权限的数据库接口，或者在你明确要求“仅总结”时，执意要修改原始文档。这种不可预测性，是当前AI代理从“玩具”走向“工具”的最大障碍之一。

这正是 steipete/agent-rules 这个项目试图解决的核心问题。你可以把它理解为一套为AI代理量身定制的“交通规则”或“公司章程”。它不是一个具体的代理实现，而是一个规则引擎和规范框架，旨在为基于大型语言模型（LLM）构建的自主代理系统，注入确定性和安全性。简单来说，它的目标是： 让AI代理在既定的“护栏”内，安全、可靠、可控地执行任务。

这个项目源自开发者对当前AI代理生态的深刻观察。随着 LangChain、AutoGPT、CrewAI 等框架的流行，构建一个能自主规划、使用工具的代理变得越来越容易。但“能力越大，责任越大”，也意味着“翻车的可能性越高”。 agent-rules 的出现，就是为了给这股强大的能力套上缰绳，确保代理的行为符合开发者的意图、组织的政策以及基本的安全伦理底线。无论你是独立开发者、企业技术负责人，还是AI应用的研究者，只要你关心AI代理的落地安全和可控性，这个项目都值得你深入关注。

2. 核心设计理念与架构拆解

2.1 从“事后纠错”到“事前预防”的范式转变

传统上，我们对AI代理行为的控制，大多依赖于“事后检查”和“提示词工程”。比如，在提示词里反复强调“不要做这个”、“只能做那个”，或者等代理执行完一系列动作后，再去校验结果是否合规。这种方式存在两个致命弱点：一是依赖LLM对复杂、冗长提示词的理解和遵从能力，这在多步任务中极不可靠；二是“亡羊补牢”，一旦代理执行了危险操作（如误删文件、调用错误API），后果可能已经发生。

agent-rules 的设计哲学是 “规则优先，执行在后” 。它将规则提升为一等公民，在代理的决策循环（Perceive-Plan-Act）中，尤其是在“规划”和“行动”阶段，插入了一个强大的规则校验层。其核心思想可以类比为：

提示词（Prompt） ：是给代理的“任务目标”和“行为指南”，像是告诉司机“去机场，开稳一点”。
规则（Rules） ：是嵌入在道路和车辆系统中的“交通法规”和“电子围栏”，比如限速标志、禁止左转标牌、以及车辆自身的超速报警和车道保持功能。无论司机（代理）主观上想怎么开，系统都会强制其遵守规则。

2.2 多层次、可组合的规则体系架构

agent-rules 的架构之美在于其清晰的分层和可组合性。它没有将规则视为一堆杂乱的 if-else 语句，而是构建了一个系统化的框架。

第一层：原子规则（Atomic Rules） 这是最基本的构建块，用于约束单个、具体的动作或状态。例如：

工具调用规则 ： 禁止调用“文件删除”工具 、 调用“支付API”前必须满足余额大于100元 。
数据访问规则 ： 禁止读取“/etc/passwd”路径下的文件 、 访问用户个人数据前必须记录审计日志 。
内容生成规则 ： 生成内容中不得包含特定关键词（如暴力、歧视性言论） 。
流程规则 ： 任务执行步骤不得超过10步 、 在步骤A完成前，不得执行步骤B 。

第二层：组合规则与策略（Composite Rules & Policies） 单个规则力量有限， agent-rules 允许你将原子规则组合成更复杂的策略，以适应真实场景。

基于角色的策略 ：你可以定义“财务分析员”角色策略，其中包含 可以调用数据查询工具，但禁止调用资金转账工具 等规则组合。
基于上下文的策略 ：根据任务类型动态启用不同的规则集。例如，处理“公开信息整理”任务时，启用一套宽松的规则；处理“内部数据审计”任务时，则启用包含严格数据脱敏和审计日志规则的策略。
规则优先级与冲突解决 ：当多条规则可能发生冲突时（例如，一条规则要求记录日志，另一条规则禁止访问某个包含日志的目录），框架需要提供明确的优先级定义和冲突解决机制。 agent-rules 通常会采用“拒绝优先”或“特定优于一般”等原则，并提供可视化工具帮助开发者理清规则关系。

第三层：规则引擎与执行上下文 这是框架的核心“大脑”。它负责：

规则加载与解析 ：从YAML、JSON或代码中加载定义好的规则。
上下文感知 ：收集当前代理执行的所有上下文信息，包括：当前使用的工具、工具输入参数、已访问的数据、历史动作序列、用户身份、任务目标等。
实时评估与拦截 ：在代理 即将执行 某个动作（如调用工具）时，引擎将动作和上下文与所有相关规则进行匹配评估。如果违反任何规则，则立即拦截该动作，并向代理返回一个结构化的错误信息（如“操作被禁止：规则R001”），而不是一个模糊的LLM生成错误。代理可以根据这个错误调整其后续计划。
审计与追溯 ：所有规则的触发、动作的允许/拒绝，都会被详细记录，形成完整的审计追踪链条，这对于合规性和问题排查至关重要。

2.3 与主流代理框架的集成模式

agent-rules 被设计为轻量级、非侵入式的中间件。它并不试图取代 LangChain、LlamaIndex 或 AutoGen 等框架，而是以“插件”或“装饰器”的方式无缝嵌入其中。

以集成 LangChain 为例，典型的集成模式如下：

from langchain.agents import AgentExecutor, create_react_agent
from langchain.tools import Tool
# 假设 agent_rules 提供了 LangChain 的集成工具
from agent_rules.integrations.langchain import RuleEnforcerCallbackHandler

# 1. 定义你的工具和代理
tools = [Tool(name="web_search", func=search_func), Tool(name="file_write", func=write_func)]
agent = create_react_agent(llm, tools, prompt)

# 2. 加载规则集
rules = load_rules_from_yaml("security_rules.yaml")

# 3. 创建规则执行器回调
rule_enforcer = RuleEnforcerCallbackHandler(rules=rules)

# 4. 在创建 AgentExecutor 时注入回调
agent_executor = AgentExecutor(
    agent=agent,
    tools=tools,
    callbacks=[rule_enforcer], # 关键：注入规则执行器
    verbose=True
)

# 现在，当代理尝试调用 `file_write` 工具写入系统目录时，会被 rule_enforcer 根据规则拦截。

这种集成方式优雅且强大，它无需修改原有代理的核心逻辑，只是在其执行链路上增加了一个安全的“检查点”。

3. 规则定义详解与实战配置

理解了架构，我们来深入最核心的部分：如何定义规则。 agent-rules 通常支持多种定义方式，兼顾可读性和可编程性。

3.1 声明式规则（YAML/JSON）

对于大多数静态、易于理解的规则，使用YAML或JSON定义是最佳选择，因为它清晰、易维护、且能被非程序员（如产品经理、合规专家）理解和评审。

# security_rules.yaml
version: "1.0"
rules:
  - id: "RULE-001"
    description: "禁止向系统敏感路径写入文件"
    target: "action" # 规则针对“动作”
    condition:
      action_type: "tool_call"
      tool_name: "file_write"
      params:
        path:
          matches: "^/(etc|bin|sbin|usr/bin|root).*" # 正则匹配敏感路径
    effect: "DENY" # 效果：拒绝
    message: "出于安全考虑，禁止向系统目录写入文件。"

  - id: "RULE-002"
    description: "调用支付接口必须经过确认且金额小于限额"
    target: "action"
    condition:
      action_type: "tool_call"
      tool_name: "process_payment"
    preconditions: # 执行前必须满足的条件
      - type: "user_confirmation"
        required: true
      - type: "parameter_check"
        param: "amount"
        operator: "<="
        value: 5000
    effect: "ALLOW_WITH_CONDITIONS" # 有条件允许
    on_violation: "REQUEST_CONFIRMATION" # 违反时触发二次确认

  - id: "RULE-003"
    description: "任何任务执行步骤不得超过15步，防止无限循环"
    target: "session" # 规则针对整个会话
    condition:
      metric: "step_count"
      operator: ">"
      threshold: 15
    effect: "TERMINATE" # 效果：终止会话
    message: "任务步骤数超限，已强制终止以防止资源耗尽。"

注意：YAML中的 matches 等字段使用了正则表达式，这是定义路径、模式匹配等复杂条件的强大工具，但需要谨慎编写和测试，避免规则过于宽松或严苛。

3.2 编程式规则（Python）

对于需要复杂逻辑、动态计算或访问运行时上下文的规则，直接使用Python代码定义更为灵活。

# dynamic_rules.py
from agent_rules import Rule, Effect, Context

class BudgetAwareRule(Rule):
    rule_id = "DYNAMIC-001"
    description = "确保工具调用成本不超过会话预算"

    def evaluate(self, context: Context) -> Effect:
        # 从上下文中获取当前会话已估算的成本
        current_cost = context.session.get("estimated_cost", 0)
        # 获取当前待执行动作的预估成本（假设工具元数据中有）
        action_cost = context.proposed_action.metadata.get("cost_estimate", 0)
        # 获取为该会话设置的预算
        budget = context.session.get("budget", 100) # 默认预算100单位

        if current_cost + action_cost > budget:
            return Effect(
                decision="DENY",
                message=f"操作被拒绝。预估成本({action_cost})将导致总成本({current_cost + action_cost})超出预算({budget})。"
            )
        # 如果允许，也可以选择返回一个修改后的动作（如添加成本标记）
        return Effect(decision="ALLOW")

class ContentModerationRule(Rule):
    rule_id = "CONTENT-001"
    description = "对生成的内容进行安全审查"

    def evaluate(self, context: Context) -> Effect:
        # 假设我们有一个简单的关键词过滤列表
        blacklist = ["敏感词A", "违规词B"]
        # 检查代理即将生成或已生成的内容
        content_to_check = context.proposed_action.get("content") or context.last_observation

        if content_to_check and any(word in content_to_check for word in blacklist):
            # 不仅拒绝，还可以触发一个净化或重写动作
            return Effect(
                decision="DENY_AND_SUGGEST",
                message="内容包含不合规词汇。",
                suggestion_action={
                    "type": "rewrite_content",
                    "original": content_to_check,
                    "instruction": "请以合规的方式重新表达上述内容。"
                }
            )
        return Effect(decision="ALLOW")

编程式规则的优势在于其无限的可能性，你可以集成外部API进行实时内容审核、调用风控系统、或根据数据库中的动态策略进行决策。

3.3 规则的组织与管理最佳实践

当规则数量增多时，良好的组织是关键。

按功能域分组 ：创建 security_rules.yaml 、 compliance_rules.yaml 、 cost_rules.yaml 等文件。
使用规则集（Ruleset） ：将相关的规则打包成规则集，便于按场景加载。例如， basic_safety_ruleset 、 financial_task_ruleset 。
版本控制 ：规则配置应与代码一样纳入Git版本控制，便于回溯和协作。
测试规则 ：为重要的规则编写单元测试，模拟不同的上下文，确保规则按预期触发。 agent-rules 项目本身应提供测试工具或范例。
文档化 ：为每条复杂的规则添加清晰的 description ，并维护一个规则清单文档，说明每条规则的意图、触发条件和负责人。

4. 高级应用场景与集成模式

4.1 实现基于角色的访问控制（RBAC）

这是企业级应用的核心需求。你可以将 agent-rules 与你的用户身份系统结合。

# rbac_rules.yaml
rules:
  - id: "RBAC-001"
    description: "只有‘管理员’角色可以执行用户管理操作"
    condition:
      action_type: "tool_call"
      tool_name_in: ["create_user", "delete_user", "modify_user_role"]
    preconditions:
      - type: "user_has_role"
        role: "administrator"
    effect: "DENY"
    message: "权限不足。需要‘管理员’角色。"

规则引擎在执行前，会从上下文中获取当前代理运行所代表的用户（或服务账号）身份信息，并进行角色校验。

4.2 成本控制与资源治理

在多租户或云环境中，控制AI代理的运行成本至关重要。

# 结合规则引擎和监控系统
class CostGovernanceRule(Rule):
    def evaluate(self, context):
        tenant_id = context.session.get("tenant_id")
        current_month_cost = billing_api.get_monthly_cost(tenant_id, service="ai_agent")
        monthly_budget = tenant_config.get_budget(tenant_id)

        if current_month_cost >= monthly_budget:
            # 如果本月已超预算，只允许执行低成本或免费的操作
            if context.proposed_action.metadata.get("cost_tier") != "free":
                return Effect(decision="DENY", message="本月预算已用尽，仅限免费操作。")
        elif current_month_cost > monthly_budget * 0.8:
            # 预算使用超过80%，发出警告但仍允许，同时可发送警报
            send_alert(f"租户{tenant_id} AI代理预算使用已超80%")
            return Effect(decision="ALLOW_WITH_WARNING", warning="预算即将用尽。")
        return Effect(decision="ALLOW")

4.3 复杂工作流的阶段门控（Stage-Gating）

对于需要按严格顺序执行的复杂工作流（如数据处理流水线），规则可以充当“阶段门”。

rules:
  - id: "WORKFLOW-001"
    description: "必须在数据验证步骤成功完成后，才能执行数据转换步骤"
    condition:
      action_type: "tool_call"
      tool_name: "data_transformation"
    preconditions:
      - type: "stage_completed"
        stage_name: "data_validation"
        status: "success"
    effect: "DENY"
    message: "请先完成并通过‘数据验证’阶段。"

规则引擎需要能够访问和查询工作流引擎的状态，这通常通过共享的上下文或状态存储来实现。

4.4 与可观测性平台集成

规则引擎的审计日志是金矿。你应该将所有 DENY 、 TERMINATE 决策以及重要的 ALLOW_WITH_CONDITIONS 事件，推送到你的集中式日志系统（如ELK Stack）、监控平台（如Prometheus/Grafana）或安全信息与事件管理（SIEM）系统。

指标（Metrics） ：记录规则触发次数、被拒绝的操作类型分布、按用户/任务的违规统计等。
日志（Logs） ：记录完整的审计事件，包括时间戳、会话ID、用户、触发的规则、动作详情、决策结果。
告警（Alerts） ：当出现高频违规、或触发了某些关键安全规则（如尝试执行 rm -rf / ）时，立即触发告警通知安全团队。

5. 实施路径、常见陷阱与性能考量

5.1 分阶段实施建议

不要试图一次性用数百条规则锁死你的代理。建议采用渐进式策略：

阶段一：基础安全护栏（必做）
- 目标：防止最危险的、可能导致不可逆损失的操作。
- 规则示例：禁止执行任意系统命令、禁止写入特定目录、禁止调用未经验证的外部API。
- 影响：对合法任务影响极小，但能极大降低“灾难性”风险。
阶段二：核心合规与成本控制
- 目标：满足业务合规要求，控制资源消耗。
- 规则示例：数据访问审计日志、内容输出过滤（如PII脱敏）、单次任务成本上限、步骤数限制。
- 影响：开始引入一些业务流程约束，需要与业务方沟通。
阶段三：精细化策略与优化
- 目标：提升效率、体验和智能化程度。
- 规则示例：基于角色的动态策略、复杂工作流门控、根据上下文自动推荐或限制工具。
- 影响：规则逻辑变复杂，需要更全面的测试和更精细的调整。

5.2 常见陷阱与避坑指南

陷阱一：规则冲突与死锁
- 场景：规则A说“必须完成X后才能做Y”，规则B说“做X之前必须完成Y”。
- 解决方案 ：在设计阶段就使用规则依赖关系图工具进行检查。为规则设置明确的优先级，并确保规则引擎有合理的冲突解决策略（如“拒绝优先”）。编写集成测试，模拟各种边缘场景。
陷阱二：过度约束导致代理“瘫痪”
- 场景：规则太多太细，代理每一步行动都被拒绝，无法完成任何有效工作。
- 解决方案 ：遵循“最小权限”原则起步。大量使用 ALLOW_WITH_WARNING 或 REQUEST_CONFIRMATION 效果，而不是直接 DENY ，尤其是在初期。建立规则效能评估机制，定期审查哪些规则从未触发或频繁触发但无实际风险，进行优化或移除。
陷阱三：规则性能成为瓶颈
- 场景：每次动作前都要评估上百条复杂规则，导致代理响应速度显著下降。
- 解决方案 ：
  1. 索引与分类 ：根据 action_type 、 tool_name 等属性对规则建立索引，快速过滤无关规则。
  2. 条件简化 ：避免在规则条件中编写过于复杂的实时计算或远程调用。将可以预计算的信息提前放入上下文。
  3. 异步与缓存 ：对于某些安全检查（如慢速的内容审核API），可以考虑异步执行或使用缓存结果，允许代理在等待结果时先执行其他不依赖此检查的步骤（需谨慎设计）。
  4. 性能测试 ：对规则引擎进行压力测试，了解其性能极限。
陷阱四：规则维护成为负担
- 场景：业务逻辑一变，规则就要大改，且牵一发而动全身。
- 解决方案 ：
  1. 抽象与参数化 ：尽量使用参数化的规则。例如，定义一个“禁止访问路径”的规则模板，具体路径通过配置传入。
  2. 规则即代码（Rules as Code） ：将规则与业务逻辑的代码放在同一仓库，同步评审和变更。
  3. 提供管理界面 ：对于复杂的生产系统，考虑开发一个简单的规则管理UI，允许授权人员（非开发者）启用/禁用规则或调整部分参数。