Skill 学习篇（十）| 编排框架 · 五大编排框架 · 全方位决策指南

Slow菜鸟

18人浏览 · 2026-05-09 14:48:41

Slow菜鸟 · 2026-05-09 14:48:41 发布

Skill 学习篇（十）| 编排框架 · 五大编排框架 · 全方位决策指南

本文基于对五个框架的 GitHub 仓库、官方文档、独立评测、企业案例、社区讨论的系统性交叉验证。每一个结论都标注了来源类型。最后更新：2026-05-09。

1. 五分钟速览

框架	一句话	核心机制	版本	Stars	出品方
GSD	专治上下文腐烂的工作流协议	分阶段开新窗口执行 + 文件持久化	v1.41.0	61K+	TÂCHES（独立开发者）
gstack	25 种工程角色的虚拟团队	角色分工斜杠命令 + Sprint 流水线	无发布版本	91.7K+	Garry Tan（YC CEO）
Spec Kit	规范成为可执行蓝图	Constitution 驱动的 9 步门禁流程	v0.8.7	93K+	GitHub（官方）
Ruflo	企业级多智能体蜂群指挥系统	5 种集群拓扑 + 5 种共识/协调机制	v3.6.30	46.9K+	rUv / Cognitum.One
OpenSpec	轻量级 delta 规范驱动	增量差异（ADDED/MODIFIED/REMOVED）自动归档	v1.3.1	46.2K+	Fission-AI（YC W26）

数据来源：各框架 GitHub 仓库主页（2026-05-09 抓取）。

2. 多维度对比

2.1 生产就绪度

维度	GSD	gstack	Spec Kit	Ruflo	OpenSpec
版本号	v1.41.0	无发布版本	v0.8.7	v3.6.30	v1.3.1
发布次数	66	0	—	1,480	36
提交数	2,497	266	931	6,345	586
已知内存泄漏	无报告	无报告	无报告	有（GitHub Issues #1373）	无报告
测试失败	无报告	无报告	无报告	16 个测试失败	无报告
Windows 兼容	✅	⚠️ 需 Git Bash/WSL	✅	❌ 已知崩溃（#1164）	✅
ThoughtWorks 雷达	未收录	未收录	已收录（2026-04）	未收录	未收录
独立安全审计	无公开记录	无公开记录	无公开记录	有内部审计但无第三方	无公开记录

Ruflo 数据来源：GitHub Issues #1373、#1344、#1164；ic.work 独立分析（2026-05）。

2.2 企业治理能力

能力	GSD	gstack	Spec Kit	Ruflo	OpenSpec
需求→代码可追溯链	⚠️ 文件级	❌ 对话级	✅ 完整 artifact 链	❌	✅ delta 归档
强制质量门禁	✅ 4 类门禁	❌ 靠角色自觉	✅ 强制不跳步	❌	❌ 无强制
技术决策记录	⚠️ 散落	❌	✅ CONSTITUTION.md	❌	❌
编码规范强制执行	❌	❌	✅ Constitution 约束	❌	❌
审计轨迹	✅ Git 历史	✅ Git 历史	✅ 完整 artifact	⚠️ 代理日志	✅ archive 目录
跨模型支持	8+	9+	30+	多模型	25+

Spec Kit 治理数据来源：GitHub 官方文档 + ThoughtWorks 技术雷达评估（2026-04）。

2.3 真实世界验证

框架	已知企业/组织用户	独立公开案例	案例可信度
GSD	Amazon / Google / Shopify / Webflow 工程师	Hacker News 多篇使用报告 / XDA Developers 评测 / AugmentCode 评测	高
gstack	Garry Tan 本人	仅作者自述，无第三方独立验证	低（伴随 Hacker News 争议和 flag）
Spec Kit	ThoughtWorks 团队 / EPAM	ThoughtWorks 雷达收录 / EPAM 案例研究 / Microsoft Learn 培训模块	高
Ruflo	无公开企业案例	ic.work 独立分析：明确建议不用于核心工作流	无正面案例
OpenSpec	得物（大型电商平台）	得物技术团队深度实战文章（优惠券结算重构）	高

来源：各框架 README 声明 + Hacker News + 知乎/CSDN + ThoughtWorks Radar + ic.work 独立分析。

2.4 存量项目（Brownfield）适配

能力	GSD	gstack	Spec Kit	OpenSpec
零侵入初始化	❌ 需整理项目信息	✅ 仅加 skill 文件	⚠️ 需 `init --here` + 整理	✅ `openspec init` 后目录为空
对已有代码补 spec	不需要	不需要	需要（全量 spec 模型）	不需要（delta 只写改动）
不影响团队原有流程	⚠️ 需改用 GSD 命令	⚠️ 需改用 gstack 命令	❌ 需改为 9 步门禁	✅ 不改流程
卸载代价	删文件即可	删 skill 即可	删 `.specify/` + `specs/`	`rm -rf openspec/`
规范渐进生长	❌	❌	❌ 每次全量重写	✅ 核心能力

关键推论：存量项目引入编排框架，OpenSpec 是唯一"零迁移成本"的选项。其他四个都需要先投入时间整理或适配。

2.5 学习曲线与团队门槛

框架	核心命令数	上手时间	团队其他人需要学吗	主要学习障碍
GSD	6 核心 + 80 辅助	1-2 天	用辅助命令时需要	六阶段工作流概念
gstack	25	3-5 天	需要用到的角色都要学	25 个命令的适用时机
Spec Kit	9	2-3 天	必须学（流程强制）	Constitution 写法 + 9 步门禁节奏
Ruflo	—	1-2 周	必须学	集群拓扑 + 共识协议 + 代理配置
OpenSpec	4 核心 + 6 扩展	半天	不需要	理解 delta 标记（ADDED/MODIFIED/REMOVED）

3. 核心问题一：能不能搭配装？

3.1 规范层 vs 执行层

编排框架按职责天然分成两层：

规范层（定义"做什么"）        执行层（管理"怎么做"）
┌──────────────┐              ┌──────────────┐
│  Spec Kit    │              │     GSD      │  ← 上下文隔离
│  OpenSpec    │              │    gstack    │  ← 角色分工
└──────────────┘              │    Ruflo     │  ← 多机集群
       │                      └──────────────┘
       │                            │
  同一层内是竞争关系           同一层内可以互补
  只能选一个                   可以按需叠加

3.2 每种组合的判定

组合	关系	判定	原因
Spec Kit + OpenSpec	竞争	🔴 不要	两套 spec 体系、两套目录、两套命令——团队困惑和决策疲劳
OpenSpec + GSD	互补	✅ 可取	规范层和执行层各司其职，目录不冲突，命令不重叠
Spec Kit + GSD	半重叠	🟡 不推荐	两者都有 plan/execute 阶段，谁的优先级高？
OpenSpec + gstack	勉强互补	🟡 慎用	gstack 25 个命令中仅 4-5 个对存量项目有用
GSD + gstack	勉强互补	🟡 慎用	角色分工 + 上下文隔离各有价值，但没有 gstack 版本号，升级风险叠加
OpenSpec + GSD + gstack	过度	🔴 不要	三套框架 = 三套升级节奏 + 上下文被框架吃掉 20K+ tokens
任何 + Ruflo	风险叠加	🔴 目前不要	Ruflo 自身 bug 未修完，叠加其他框架让排错变成噩梦

3.3 唯一推荐搭配

OpenSpec + GSD，理由如下：

目录互不侵犯：
├── openspec/         ← OpenSpec
├── PROJECT.md        ← GSD
├── REQUIREMENTS.md   ← GSD
├── ROADMAP.md        ← GSD
├── STATE.md          ← GSD
└── src/              ← 你的代码（两者都不碰）

工作流：
/opsx:propose  → 写 delta spec
/opsx:apply    → 实现
/gsd-plan-phase 1  → 拆执行阶段
/gsd-execute-phase 1 → 子代理并行执行
/gsd-verify-work 1   → 验证
/opsx:archive  → 归档

上下文开销估算：
• GSD 全量：~12K tokens
• OpenSpec：约 3-6K tokens（取决于命令数）
• 合计：15-18K tokens 系统开销

搭配的条件： 项目规模足够大，15-18K token 开销值得。小项目不划算。

3.4 特殊情况：项目里已有 Superpowers 技能包，再加编排框架冲突吗？

先说结论：不冲突。 Superpowers 是方法论技能包，五个编排框架是工作流管理——它们不在同一层，目录不打架，命令不重叠。

但这不是说"随便叠加都没事"。以下是逐一分析：

Superpowers 是什么？

属性	说明
定位	方法论技能包（教 AI 怎么做工程），不是编排框架
作者	Jesse Vincent（obra / Prime Radiant）
Stars	184K+
版本	v5.1.0
机制	14 个技能自动激活——不需要手动调命令，AI 在写代码时自动走 TDD、系统调试、代码审查
安装位置	`.claude/skills/superpowers/`
核心理念	“Write tests first, always”

数据来源：obra/superpowers GitHub 仓库（2026-05-09 抓取）。

Superpowers × 五个编排框架逐一判定：

叠加组合	判定	目录冲突？	命令冲突？	功能重叠？	详细说明
Superpowers + Spec Kit	🟡 可用	无（`.claude/skills/` vs `.specify/`）	无（自动激活 vs `/speckit.*`）	⚠️ 轻度	Superpowers 的 brainstorming + writing-plans 和 Spec Kit 的 `/speckit.specify` + `/speckit.plan` 都强调"先规划再写代码"。不冲突但需明确分工：让 Spec Kit 产出规范文档（CONSTITUTION.md / SPECIFICATION.md），让 Superpowers 管 TDD 和代码审查
Superpowers + OpenSpec	✅ 最干净	无（`.claude/skills/` vs `openspec/`）	无（自动激活 vs `/opsx:*`）	无	Superpowers 管"怎么写对"（TDD + review），OpenSpec 管"写什么"（delta spec）。零重叠，叠加后上下文开销最低
Superpowers + GSD	✅ 互补	无（`.claude/skills/` vs 项目根目录文档）	无（自动激活 vs `/gsd-*`）	无	Superpowers 管工程方法论，GSD 管上下文隔离。不同维度，各管各的
Superpowers + gstack	🟡 有冗余	无（都在 `.claude/skills/` 但不同子目录）	无（自动激活 vs `/review` 等）	⚠️ 中度	Superpowers 的 requesting-code-review 和 TDD 覆盖了 gstack 的 `/review` 和 `/qa` 功能。如果已装 Superpowers，gstack 的审查/测试角色是重复投资。只有 `/cso`（安全）、`/ship`（发布）、`/browse`（浏览器测试）这几个 Superpowers 不覆盖的角色有增量价值
Superpowers + Ruflo	🔴 不要	无关	无关	无关	不是因为冲突——是因为 Ruflo 自身的内存泄漏 + 16 测试失败 + Windows 崩溃不解决，跟谁叠加都不安全

叠加后的上下文开销：

只装 Superpowers               → ~3-5K tokens
Superpowers + OpenSpec          → ~7-10K tokens
Superpowers + Spec Kit          → ~10-14K tokens
Superpowers + GSD               → ~15-18K tokens
Superpowers + OpenSpec + GSD    → ~18-23K tokens

以上为估算值，实际开销取决于安装模式（GSD 有 --minimal 模式可降至 ~700 tokens）和激活的技能数量。

一句话：Superpowers 跟五个编排框架都不冲突，但它让 gstack 的 review/QA 角色变多余，跟 Spec Kit 有轻微的规划理念重叠需要主动分工。最干净的叠加对象是 OpenSpec 和 GSD。

4. 核心问题二：已有公司项目，加哪个不伤身？

4.1 侵入性排名

OpenSpec  <  gstack  <  GSD  <  Spec Kit  <  Ruflo
   │           │         │         │           │
 零侵入      轻量      中等      重度       危险

4.2 逐框架分析

OpenSpec：零侵入

执行 openspec init 后：
  项目多了 openspec/ 目录（空的）
  项目原有代码、流程、文件 → 完全不变
  团队其他人 → 不知道也无所谓
  不用了 → rm -rf openspec/

核心原因：Delta 模型不需要你给已有代码补 spec。
只给"这次要改的模块"写 delta，不改的模块一动不动。
规范库是随着每次改动自然长出来的。

企业案例：得物（大型电商）在生产环境中用此方式，
对已有优惠券结算系统做重构，只写变更 delta，不补全量 spec。

来源：得物技术团队公开文章（2026-03）+ OpenSpec 官方仓库。

gstack：轻量但收益有限

侵入程度：仅 .claude/ 下加 skill 文件，不碰项目代码
实际问题：25 个角色，存量项目真正有用的约 4-5 个：
  ✅ /review（代码审查）
  ✅ /cso（安全审计）
  ✅ /qa（测试）
  ✅ /ship（发布）
  ❌ /office-hours、/design-shotgun、/plan-*（你已有方案和设计）
  
致命缺陷：无版本号。如果某次更新和你的 Claude Code 版本不兼容，
你无法回滚到特定版本——因为没有 semver。

GSD：中等侵入，需整理已有信息

实际需要做的事：
  - 写 PROJECT.md（项目总览）
  - 整理 REQUIREMENTS.md（已有需求）
  - 规划 ROADMAP.md（后续路线）
  - 标记 STATE.md（当前进度）

适合：项目正在大规模迭代，跨天任务频繁
不适合：项目只是日常修修补补，初始化成本回不了本

Spec Kit：存量项目最高侵入

specify init --here 之后：
  - 需要写 CONSTITUTION.md（整个项目的技术原则）
  - 每个新功能要写全量 spec（不是 delta）
  - 已有 50 个接口怎么补 spec？这是个现实问题
  - 团队必须改用 9 步门禁流程

社区反馈：ThoughtWorks 报告指出存量项目使用 Spec Kit
存在 "brownfield friction"——重写全量 spec 是真实摩擦。
EPAM 案例确认了这一点。

适合：准备从零重写的项目，或者全新子项目。
不适合：已经在跑的项目想"试试看"。

Ruflo：目前不要往任何公司项目上加

已知问题（均有 GitHub Issues 编号）：
  - 内存泄漏：3 个 Map 无清理机制（#1373）
  - 16 个测试失败（Vitest 4.x 兼容性）
  - Windows 崩溃：ERR_UNSUPPORTED_ESM_URL_SCHEME（#1164）
  - 独立分析明确建议不用于核心工作流（ic.work, 2026-05）
  - 无公开企业案例

5. 分场景决策

5.1 你在哪个阶段？选哪个？

你的项目阶段
│
├─ 0→1（从零开始，商业项目）
│   │
│   ├─ 需要质量审计/合规/未来交接
│   │   └─ 首选：Spec Kit
│   │      • 唯一提供 Constitution → Spec → Plan → Tasks 全链治理
│   │      • ThoughtWorks 雷达已收录
│   │      • GitHub 官方出品，93K⭐，MIT 协议
│   │      • 风险提示：EPAM 案例证明 Constitution 可能被 AI 忽略
│   │        解法——写"为什么"而不是只写"不要做什么"
│   │
│   └─ 不需要严格审计，想要轻量快速
│       └─ 首选：OpenSpec
│          • 比 Spec Kit 轻得多
│          • YC 孵化，v1.3.1 已过 1.0 里程碑
│
├─ 1→10（已有项目，持续迭代）
│   │
│   ├─ 日常功能迭代
│   │   └─ 首选：OpenSpec
│   │      • Delta 模型：改哪写哪，不改不动
│   │      • 零侵入：openspec init 后目录为空
│   │      • 卸载零成本：rm -rf openspec/
│   │
│   ├─ 跨天/跨会话马拉松任务
│   │   └─ OpenSpec + GSD 组合
│   │      • OpenSpec 管规范，GSD 管上下文不腐烂
│   │      • 注意：15-18K tokens 上下文开销
│   │
│   └─ 修修补补为主
│       └─ 不加任何框架
│          • 你的痛点不是上下文腐烂也不是规范缺失
│          • 加框架只会增加负担
│
└─ 需要跨机器多代理集群
    └─ ⚠️ 目前五家都不够成熟
       • Ruflo 架构对但代码质量不支撑商业使用
       • 建议：继续用 OpenSpec+GSD，等 Ruflo 稳定到 v4.x 再评估

5.2 按团队类型选

团队类型	推荐	理由
个人开发者（side project）	OpenSpec 或不用	轻量，快速，不强制流程
个人开发者（要商业化的产品）	Spec Kit	从第一天就有完整治理，未来交接/融资/合规不慌
小团队（2-5 人，新项目）	Spec Kit	Constitution 统一团队编码标准，门禁避免跳步
小团队（2-5 人，有存量项目）	OpenSpec	零迁移成本，先跑起来
中型团队（5-20 人，有存量项目）	OpenSpec + GSD	日常用 OpenSpec 迭代，马拉松任务用 GSD 管理
大团队（20+人）	超出本文范围	需评估 CI/CD 集成、权限管理、合规要求

6. 风险清单：选之前必须知道的

框架	必须知道的风险	严重程度
GSD	完整自动化需 `--dangerously-skip-permissions`，企业安全策略可能不允许	中
GSD	完全自主模式下 AI 可能在你不知情时做架构决策	中
gstack	无发布版本号——升级不可预期，回滚无锚点	高
gstack	企业案例仅作者一人，Hacker News 争议大（被指"名人效应"）	高
Spec Kit	Constitution 可能被 AI 忽略（EPAM 案例确认）——必须写"为什么"	中
Spec Kit	存量项目全量 spec 重写摩擦大（ThoughtWorks 报告确认）	中
Spec Kit	指令膨胀（instruction bloat）导致上下文消耗增加	中
Ruflo	内存泄漏 + 16 个测试失败 + Windows 崩溃——不适合生产	致命
Ruflo	1,480 个发布 = break change 概率极高	高
OpenSpec	无强制门禁——不自律的团队可能跳步	低
OpenSpec	品牌认知度低于 Spec Kit（46K vs 93K stars）	低

7. 一页总结

┌─────────────────────────────────────────────────────────┐
│                    五大编排框架 决策速查                    │
├──────────┬──────────┬──────────┬──────────┬──────────────┤
│          │  Spec Kit│ OpenSpec │   GSD    │    gstack    │
├──────────┼──────────┼──────────┼──────────┼──────────────┤
│ 0→1 商业 │  ✅ 首选  │  可用    │  太重    │   慎用       │
│ 1→10 迭代│  有摩擦  │  ✅ 首选  │  ✅ 组合  │  收益有限    │
│ 存量项目  │  侵入高  │ ✅ 零侵入 │  需整理  │  学习成本高  │
│ 企业治理  │ ✅ 最完整 │  基础    │  基础    │   弱         │
│ 搭配装    │  别搭配  │ ✅ 可+GSD │ ✅ 可+OS │  别搭配     │
│ 生产就绪  │  ✅     │  ✅      │  ✅      │  ⚠️ 无版本号 │
├──────────┼──────────┼──────────┼──────────┼──────────────┤
│  Ruflo    │ 目前不推荐用于任何商业场景（截至 2026-05）     │
└──────────┴──────────┴──────────┴──────────┴──────────────┘

如果你只能记住一句：
  新项目要治理 → Spec Kit
  老项目要迭代 → OpenSpec
  跨天马拉松 → GSD
  目前别碰 → Ruflo
  gstack → 除非你确定知道为什么要用 Garry Tan 的个人工具

方法论声明： 本文每个结论基于以下来源的交叉验证——各框架 GitHub 仓库（README、Issues、Discussions）、官方文档、ThoughtWorks 技术雷达（2026-04）、EPAM 案例研究、得物技术团队公开文章、ic.work 独立分析、Hacker News 社区讨论、AugmentCode/XDA Developers 等独立评测。所有数据抓取于 2026-05-09。Stars 数和版本号是动态数据，以你阅读时的实际值为准。