不想成为只会贴 Prompt 的人：用 WorkBuddy 做了一个让 AI 编码真正变成学习的 Skill

lyyyq662

30人浏览 · 2026-06-26 00:48:08

lyyyq662 · 2026-06-26 00:48:08 发布

一、2026 年的计算机专业学生，正在被两面夹击

第一面：AI 让写代码太容易，容易到你不学了

2025 年初，Andrej Karpathy 说出「Vibe Coding」这个词的时候，大概没想到它会变成年度词汇，更没想到它会引爆计算机教育领域的一场深层危机。

事情不复杂。现在谁都能用自然语言让 AI 写代码。一个计算机大二学生，靠 WorkBuddy 花一个下午就能用 LangGraph 搭出一个多 Agent 协作系统。代码能跑，Agent 能回话，看上去一切完美。

然后呢？

然后他什么都没学会。 StateGraph 怎么编排节点的、Intent Router 怎么判断意图的、条件边为什么这样路由——他不会去问。Agent 都跑起来了，还问什么。

这就是第一面夹击：AI 把「写出来」的门槛砸到了地板，同时把「学进去」的动力也掐掉了。 工具太强，人会本能地跳过理解环节直奔结果。期末大作业两天搞定，导师问项目每行代码为什么这么设计——答不上来。

数据也很清楚：

METR 研究机构曾计划做「有 AI vs 无 AI」的开发者对照实验，但因开发者集体拒绝在无 AI 环境下工作，实验被迫取消。
Anthropic 的研究指出，22-25 岁高暴露度职业的就业率在 AI 普及后明显下滑——AI 没有替代老员工，它替代的是年轻人的「入门通道」。
一份 2025 年的调查显示，89.2% 的受访者感觉自己过于依赖 AI，54.9% 的受访者担心过度依赖会影响自身成长。

第二面：AI 把专业壁垒给抹平了

如果说第一面是「自己学不进去」，那第二面更残酷：原来不需要你，别人也能做。

在 AI 出现之前，计算机专业的核心竞争力中，很大一部分就是「会写代码」——这本身就是一道天然的专业壁垒。一个学金融的、学新闻的、学生物的，想跨行做开发，得花大把时间学 Python、啃框架、背 API，没个一年半载过不了那个门槛。

但现在这个壁垒碎了。一个学市场营销的，靠在 WorkBuddy 里反复调 prompt，一样能搭出完整全栈项目。代码质量可能不如有经验的工程师，但做实习项目、创业 MVP、甚至中小公司的业务工具——够了。

也就是说：计算机学生如果不主动把「能写代码」升级成「真正理解了原理」「能做出有判断力的技术决策」，四年本科的投入回报率会断崖式往下掉。

两边一夹，真实的困境：

一边 AI 太强，人没有动力把知识学进去。另一边 AI 太普及，让人怀疑「学计算机有什么用，别人也能做」。结果大量计算机学生困在中间：既依赖 AI 又害怕 AI，既离不开它又不敢承认自己其实没学会。

这就是 vibe-coding-learning 这个 Skill 的来由。

二、不是帮你总结代码，是帮你重建学习的闭环

市面上已经有大量「高效写代码」「一键生成项目」的工具和提示词。但几乎没有专门围绕「学」来构建的。帮你在写完代码之后，把这次经历真正消化成自己的东西。

vibe-coding-learning 做的事就是一条链路：

一次 AI Coding 会话结束后
        ↓
扫描改动的代码文件 → 识别技术领域 → 提取知识点 → 逐段讲解代码
        ↓
整理易错点 → 推荐学习资源 → 费曼自评（你真的懂了吗？）→ 更新学习进度
        ↓
生成结构化笔记，落盘到 learning-notes/

它跟一句「帮我总结一下」的本质区别在于：普通总结是一次性的，不可积累的。而这个 Skill 产出的是一套结构化的学习资产——有目录、有索引、有掌握度追踪、有跨主题关联。

三、核心设计哲学：「你可以外包思考，但不能外包理解」

这个 Skill 的设计原则直接来自 Karpathy 在 2026 年 Sequoia AI Ascent 大会上的一句话。他说：

"You can outsource your thinking, but not your understanding."
（你可以外包思考，但不能外包理解。）

这句话精准击中了计算机学生困境的核心。关键不在于 AI 写错了代码。关键在于你以为你理解了，其实没有。

基于这个原则，Skill 里内置了一个关键环节：费曼自评。每次生成笔记之后，它不会直接收工。它会追问一句：

📝 费曼自评时间！
刚才提取了以下知识点，哪个你最不熟悉？
1. StateGraph 核心编排器 — 定义节点+边+条件路由的有向图引擎
2. AgentState TypedDict 设计 — 不可变状态的类型安全设计
3. Intent Router — 用 LLM 实时分析用户消息并路由到对应节点
...

用户说「第 2 个最陌生」，Skill 自动把这个知识点的掌握度从 🟡 降到 🔴。用户说「第 3 个我能给别人讲清楚」，就直接升级到 🟢🟢 teachable——四级掌握度体系里最高的一级。

这个设计的意义很简单：逼你面对「以为自己懂了但其实没懂」的事实。 这对于前面说的「AI 太强所以不学」的问题来说，是最直接的解药。

四、用 WorkBuddy 跑一遍完整流程

这是我自己在 WorkBuddy 里的真实对话。我花了 4 天时间，用 LangGraph 从零搭建了一个知砚 Agent 系统。整个过程跨越规划、搭建、闭环补完、升级四个阶段。第四天结束时，我对 WorkBuddy 说了一句话，Skill 帮我把 4 天的所有东西一次性沉淀了下来。

Step 1：先让 WorkBuddy 找到对应的工作记录

几天下来聊了很多，我自己都记不清哪天做了什么。所以第一步很简单——让 WorkBuddy 帮我找：

「帮我找一下关于用 langgraph 框架搭建 agent 的对话记录，告诉我有哪几天，我准备让你用 workbuddy 全局的 vibe-coding-learning skill 来帮我总结沉淀一下」

WorkBuddy 检索了本地记忆日志和对话历史，告诉我集中在 4 天：

日期	核心内容
5 月 17 日	规划阶段：确定 LangGraph 1.0.8 + LangChain 1.2.10
5 月 18 日	搭建骨架：StateGraph、AgentState、Intent Router、条件边路由、7 个 Mock 节点 → 替换为真实 Tools
5 月 22 日	闭环补完：confirm 执行、多轮会话 memory、知识库精读增强、意图识别 bug 修复
5 月 24 日	升级方案：Whoosh + Tavily 混合搜索、Agent 工作台升级、分析与报告接入

Step 2：触发 Skill

确认了这 4 天的范围后，我直接说：

「帮我总结这几天围绕 langgraph 的对话生成笔记，根据 skill 的功能再生成一个 html 版本」

Skill 自动加载进入 Mode 1（deep 模式），开始分析。

Step 3：Skill 执行过程

Phase 1 — 收集上下文。 Skill 读取了 4 天的对话记录、本地记忆日志、对应的代码文件（graph.py、state.py、intent_router.py 等），按文件覆盖度规则追踪了完整的 import 链。

Phase 2 — 识别领域。 自动归为 ai-ml / langgraph / agent。

Phase 3 — 提取知识点。 从这 4 天的工作中识别出 8 个核心知识点：

#	知识点	涉及文件
1	StateGraph 核心编排器	`graph.py`
2	AgentState TypedDict 设计	`state.py`
3	Intent Router LLM 意图识别	`intent_router.py`
4	Conditional Edges 条件边路由	`graph.py`
5	Node + Tool 分层设计	全部节点文件
6	Human-in-the-Loop 确认机制	`graph.py`
7	create_initial_state 工厂函数	`state.py`
8	多轮对话会话存储	`memory.py`

Phase 4 — 逐段讲解。 从底层到上层：state.py → graph.py → intent_router.py → 各 Tool 节点。每段解释「为什么 AgentState 用 TypedDict 而不是 Pydantic」「条件边和固定边分别适合什么场景」「Mock 节点 → 真实 Tool 的迁移决策逻辑」。

Phase 5 — 费曼自评。 生成完成后追问掌握程度。

Step 4：产出物落盘

所有内容直接写入文件系统，不在聊天记录里吃灰：

learning-notes/
├── topics/langgraph-agent-building/
│   ├── 2026-06-24-...md             ← 完整 Markdown 学习笔记
│   └── 2026-06-24-...html            ← HTML 可视化版本
├── domains/ai-ml/langgraph/
│   └── _index.md                     ← 领域索引更新
├── cards/ai-ml/
│   ├── stategraph-orchestrator.md     ← StateGraph 知识卡片
│   ├── conditional-edges-routing.md   ← 条件边卡片
│   └── ...                           ← 其他知识点卡片
├── calendar/2026-06.md               ← 学习日历更新
└── progress.md                       ← 总体进度更新

五、不止生成笔记：9 种模式覆盖学习的完整链条

学习的真实流程从来不是「记下来」就完了。完整的链条是：学 → 记 → 复 → 联 → 总 → 检。

Skill 据此设计了 9 种模式：

模式	触发方式	做什么
Mode 1 生成笔记	"总结今天学的"	提取知识 → 代码讲解 → 费曼自评
Mode 2 互动复习	"复习一下 StateGraph"	先回忆 → 再揭晓 → 标记薄弱点
Mode 3 学习进度	"我学了多少了"	四级掌握度仪表盘 + 偏科分析
Mode 4 面试准备	"帮我准备 AI Agent 面试"	基于真实项目生成话术和追问
Mode 5 提示词分析	"我的提示词怎么样"	分析协作效率，优化提问方式
Mode 6 知识整理	"有什么没整理的笔记"	批处理未归档的零散记录
Mode 7 关联检测	"这些知识点有关联吗"	跨主题建立知识网络
Mode 8 周总结	"生成本周学习报告"	深度复盘 + 反思 + 调整建议
Mode 9 健康诊断	"检查学习健康度"	遗忘检测、偏科诊断、积压评分

六、三档深度：该省 token 的时候省，该深入的时候深入

不是每次都需要同样的产出粒度。在 config.yaml 里可以选三档：

深度	Token 估算	适合场景	产出内容
🔆 light	~2K	快速扫一眼	知识点列表 + 知识卡片
📋 standard	~5K	正常学习	上述 + 代码讲解 + 易错点 + 费曼自评
📚 deep	~10K	深度研究	全部 + 教程搜索 + 从零重建指南 + session log

默认用 standard。Skill 还自带 analyze-session.py 脚本，跑一下自动推荐适合的深度：

$ python3 scripts/analyze-session.py --files graph.py state.py intent_router.py memory.py
{
  "depth": "deep",
  "file_count": 4,
  "total_lines": 512,
  "complexity_markers": {
    "agent_orchestration": true,
    "state_management": true,
    "llm_integration": true
  }
}

七、和普通做法比，差别在哪

做法	能得到什么	致命伤
普通「总结一下」prompt	一次性文字	无结构、不积累、检索不了
Notion / 手写笔记	自由度高	每次都坚持不下来，一周就断了
Anki / 闪卡	适合记忆	卡片要手动做，和真实项目脱节
vibe-coding-learning	自动生成 + 结构化归档 + 掌握度追踪 + 费曼自查	第一次要花 30 秒配置

八、为什么连「行号验证」这种细节都写了规则

这个 Skill 的定位是「可以被多个 AI 工具加载执行」。不同工具对 SKILL.md 的理解方式不一样。如果规则不够硬，执行出来就会有偏差。

说一个真实踩坑场景。笔记里写了一行 关键逻辑在 state.py:15，用户点 IDE 跳转——空行。行号是 AI 猜的，没有任何验证。

这种感觉非常差。

所以 v1.2.0 在 Writing Rules 里写了硬性规定：

行号引用：写入前必须通过 Read 工具实时确认，不靠记忆猜。
文件覆盖度：变更集 ≥ 80% 必须读取，且追踪一层 import 链。
卡片层次：同一概念不能多张卡片各解释一遍。设了「主卡片 + 引用卡片」机制。

这些不是炫技。是防止「看起来能跑但你不敢相信它的输出」。

九、仓库导航

文件	说明
`skills/vibe-coding-learning/SKILL.md`	Skill 主入口，9 个模式的完整定义
`DESIGN.md`	方案设计全过程，从痛点调研到完整架构
`demo-output/`	实际生成的学习笔记示例，最快理解产出物
`skills/vibe-coding-learning/config.yaml`	7 大类可自定义配置
`skills/vibe-coding-learning/references/vibe-coding-origin.md`	Vibe Coding 概念起源与 Karpathy 教育哲学
`TESTING.md`	端到端测试指南，覆盖全部 9 个模式