Vibe Researching来了！斯坦福教授实测：1小时自动复现PNAS论文

但一旦涉及需要购买或存储在离线环境中的私有数据（Proprietary Data），如详细的选民档案（Voter File），目前的 AI Agent 仍无法触达。在扩展分析中，AI 发现犹他州（UT）和华盛顿州（WA）在 2018 年后已经没有任何新的政策变异（Variation），所有的扩展效应其实都只来自加州。作者在复盘中非常诚恳地列出了当前的局限性，这对于试图复制该模式的研究者至关重要。为

PaperWeekly

1162人浏览 · 2026-01-05 14:35:16

PaperWeekly · 2026-01-05 14:35:16 发布

别只盯着 Vibe Coding 了，Vibe Researching 才是对传统科研的降维打击。

当 Vibe Coding 正在改变代码生成的范式时，斯坦福政治经济学教授 Andrew B. Hall 已经把它进化到了一个新的维度——Vibe Researching。

他利用 CLI 工具 Claude Code，在约一小时内，全自动复现并扩展了他 2020 年发表在 PNAS 上的一篇关于“邮寄投票（Vote-by-Mail）”的经典实证研究。

这项原本耗时数月的研究，被压缩到了一个小时的交互中。从下载代码、迁移语言、爬取 2024 年新数据，到跑通双重差分模型（DiD）并撰写新论文。

尽管作者在论文首页醒目地标注这是一次实验，结果未经人工核实，但这依然被他评价为 AI Agent 能力的惊人展示。

为了探究这一效率跃升背后的机制，我们复盘了他的 GitHub 仓库，发现支撑它的并不是单纯的模型算力，而是精密的工作流设计。

文末附带了该项目核心的 Starter Prompt 指令集，建议看到最后。

项目地址：

https://github.com/andybhall/vbm-replication-extension

技术品味：从Stata到pyfixest

这篇 2020 年原著论文完全基于 Stata 编写。要用 Python 复现它，最大的坑在于高维固定效应（Fixed Effects）的处理。

如果 AI 只是简单调用通用的 statsmodels ，很难做到结果完全对齐。

打开 requirements.txt ，第 4 行直接解释了为什么这次复现能如此精准：

# requirements.txt
pandas>=1.3.0
numpy>=1.20.0
statsmodels>=0.12.0
pyfixest>=0.18.0  <-- Claude 选用了 Stata 的最佳平替
linearmodels>=4.25

Claude Code 显然知道 pyfixest 是复刻 Stata reghdfe 命令的最佳选择。

在 replication_comparison.md 中，生成了一份对照表，清晰地展示了它是如何将 Stata 语法像素级映射到 Python 的。

〓图1. AI 将 Stata 的 reghdfe 精确映射为 Python 的 pyfixest，并保留了 CRV1 聚类标准误设置。

注意看截图中的参数 vcov={"CRV1": "county_id"} 。这种对聚类标准误（Clustered SE）的精确控制，直接保证了结果的精度。

复现报告显示，所有 12 个回归系数的差异全部为 0.000。

工程交付

很多人以为 AI 写代码就是甩给你几个 .py 文件，但这个仓库展示了什么是标准工程交付。

Claude Code 最终 Push 到 GitHub 上的不是单文件脚本，而是一个分层清晰的工程仓库，包含 code （核心逻辑）、 data （数据清洗与存储）、 output （图表与论文产出）以及 notes （详细开发笔记）。

这种结构化交付通常需要受过良好训练的研究助理才能完成。

〓图2. GitHub 仓库完整文件结构

数据扩展与新知发现

这一步是 Agentic 能力最显著的体现。

原研究数据截止至 2018 年。Claude Code 在接收到扩展指令后，并未被动等待投喂，而是自主锁定了官方数据源，并编写脚本完成了 2024 年新数据的下载与清洗。

它自主检索并整合了 2019 至 2024 年的加州选举与人口普查数据，生成了新的数据集。

它不仅延续了原有的分析框架，还基于新数据重新绘制了平行趋势图，将时间跨度拉长了 6 年。

〓图3. 论文记录了 AI 自主锁定的数据源，包括 2024 年总统大选数据和加州官方投票数据。

更有意思的是，它不仅推翻了旧结论，还找到了破案线索。

通过引入新数据，AI 发现虽然通用邮寄投票增加了投票率，但早期研究中观察到的“对民主党得票率的微弱正向影响”，在引入 2024 年数据后消失了（变得不显著）。

〓图4. 引入新数据后（浅色柱），原有的民主党得票率效应（深色柱）不再显著。

Claude 并没有止步于此。它在论文中指出，原研究观察到的微弱效应其实是选择性偏差（Selection Bias）。

它通过安慰剂检验（Placebo Test）敏锐地发现，2018 年首批试点县早在政策实施前的 2016 年，就已经表现出了显著的预趋势（Pre-trends）。

〓图5. 试点县在政策实施前已存在显著预趋势，揭示了原结论可能源于选择性偏差。

这种能通过反事实推理来纠正人类前作的能力，才是 Vibe Researching 最可怕的地方。

核心机制：基于约束的指令工程

实验成功的关键，在于作者通过 INSTRUCTIONS.md 建立了一套严密的工作流。

他在里面做了两个关键动作，注入知识，以及设立红灯。

1. 知识注入

在 Phase 1，作者并没有让 AI 瞎猜模型，而是明确要求 AI 阅读原论文，并直接在指令中注入了核心计量方程：

这相当于人类提供了“数学骨架”，AI 只需要负责往里填充血肉。

2. 防幻觉协议

针对 AI 容易瞎编参考文献的通病，Task 1.2 设立了一条极其具体的规则，强制要求 AI 核实每一篇参考文献的真实性，否则不予引用。

# INSTRUCTIONS.md (Task 1.2)
**CRITICAL**: Mark each paper as "Verified" only if you confirmed it exists. 
If you cannot verify a paper, do not include it.

3. Human-in-the-Loop

即便有严密的指令，AI 依然会有逻辑偏差，这时候就体现出 Human-in-the-loop 的价值了。

04_extension_analysis.py 的注释里保留了一段很有意思的细节。

分析阶段，作者扫了一眼 Event Study 的图表，凭直觉觉得不对劲。Claude 随后诊断出自己错误地排除了对照组。

在修复代码时，它甚至放弃了自动函数，改用手动循环来构建哑变量，并写下了“长记性”的注释：

# 04_extension_analysis.py (Lines 135-137)
"""
IMPORTANT: Includes all CA counties (both VCA adopters and never-treated)
to ensure never-treated counties serve as controls in the DiD framework.
"""

# ... (Lines 153-157)
# For never-treated counties, all dummies are 0 (they serve as controls)
for t in event_times:
    if t == -2: continue
    col = f'et{t}'.replace('-', 'm')
    df_sub[col] = ((df_sub['event_time'] == t)).fillna(False).astype(int)

这段代码就是 Vibe Researching 的真实写照，AI 负责执行和排查，人类负责基于直觉进行最终验收。

最简模式

虽然效果震撼，但我们必须看到这仅仅是一个开始。作者在复盘中非常诚恳地列出了当前的局限性，这对于试图复制该模式的研究者至关重要。

局限一：公共数据的“幸存者偏差”

作者坦言这是一个最简案例（Easiest Case）。之所以能顺利扩展，是因为该研究完全依赖公共数据（Public Data）。AI 可以轻松爬取网上的公开记录。

但一旦涉及需要购买或存储在离线环境中的私有数据（Proprietary Data），如详细的选民档案（Voter File），目前的 AI Agent 仍无法触达。

局限二：自然实验的变异枯竭

在扩展分析中，AI 发现犹他州（UT）和华盛顿州（WA）在 2018 年后已经没有任何新的政策变异（Variation），所有的扩展效应其实都只来自加州。

这意味着 AI 虽然能跑通流程，但它无法解决“现实世界数据缺乏变异”这一因果推断的根本难题。

局限三：复杂干扰项的处理

2020 年的选举数据受到 COVID-19 的严重干扰。虽然 AI 跑出了结果，但在处理这种复杂的历史混杂因素（Confounder）时，它是否能像人类学者那样细腻地进行剔除或加权，目前仍存疑。

结语

作者最后给出了一个惊人的预测，单个学者未来一年将能产出数千篇实证论文。

这让人既兴奋又恐怖。如果预言成真，我们将面临什么？

第一，科研产出的恶性通胀。

当洗数据、跑回归、画图表的边际成本趋近于零，平庸的实证研究将泛滥成灾。期刊的审稿压力将呈指数级上升，学术界可能被迫发明新的筛选机制。

第二，核心竞争力的彻底重构。

对于研究人员而言，技能树变了：

以前拼什么：拼谁 Stata/Python 代码写得溜，拼谁能熬夜清洗脏数据。

以后拼什么：

品味 (Taste)：你能否提出一个 AI 提不出的好问题？

设计 (Design)：你能否构建一套像 INSTRUCTIONS.md 那样严密的逻辑闭环？

审计 (Audit)：当 AI 一分钟跑出 10 张图，你是否有能力一眼看出哪张图的置信区间不对劲？

未来的顶级学者，不再是那个写代码最快的人，而是那个最会给 AI 下指令、且最擅长做 Code Review 的人。

🎁 彩蛋

想亲自体验一下 Vibe Researching 吗？

这是 Andrew Hall 公开的 Prompt 原文，建议直接收藏并在自己的科研项目中尝试：

# Starter Prompt for Claude Code

Copy and paste everything below into Claude Code to begin the project:

---

## CRITICAL WORKFLOW REQUIREMENTS

**YOU MUST FOLLOW THESE RULES. THEY ARE NON-NEGOTIABLE.**

1. **NEVER claim something works without running a test to prove it.** After writing any code, immediately write and run a test. If you cannot test it, say so explicitly.

2. **Work modularly.** Complete one module at a time. After each module, report what you built, show test results, and waitfor confirmation before proceeding.

3. **Iterate and fix errors yourself.** Do not rely on the user to report errors back to you. Run the code, observe the output, and fix problems before presenting results.

4. **Be explicit about unknowns.** If you're uncertain about something, say so. Don't guess.

5. **Use python3 and pip3.** Always use `python3` (not `python`) and `pip3` (not `pip`) for all commands.

---

## PROJECT INSTRUCTIONS

Read `INSTRUCTIONS.md` in this directory. It contains detailed guidance for replicating and extending a published political science paper on vote-by-mail.

**Your task**: Follow the instructions phase by phase, starting with Phase 0 (Project Setup).

**Critical rule**: At each checkpoint marked with 🛑, you must:
1. Summarize what you have completed
2. Present key outputs for review
3. List any issues or concerns
4. **STOP and waitfor my explicit approval before proceeding to the next phase**

Do not skip checkpoints. Do not proceed past a 🛑 without my approval.

**Begin now with Phase 0.**

更多阅读