别只盯着 Vibe Coding 了,Vibe Researching 才是对传统科研的降维打击。

当 Vibe Coding 正在改变代码生成的范式时,斯坦福政治经济学教授 Andrew B. Hall 已经把它进化到了一个新的维度——Vibe Researching。

他利用 CLI 工具 Claude Code,在约一小时内,全自动复现并扩展了他 2020 年发表在 PNAS 上的一篇关于“邮寄投票(Vote-by-Mail)”的经典实证研究。

这项原本耗时数月的研究,被压缩到了一个小时的交互中。从下载代码、迁移语言、爬取 2024 年新数据,到跑通双重差分模型(DiD)并撰写新论文。

尽管作者在论文首页醒目地标注这是一次实验,结果未经人工核实,但这依然被他评价为 AI Agent 能力的惊人展示。

为了探究这一效率跃升背后的机制,我们复盘了他的 GitHub 仓库,发现支撑它的并不是单纯的模型算力,而是精密的工作流设计。

文末附带了该项目核心的 Starter Prompt 指令集,建议看到最后。

项目地址:

https://github.com/andybhall/vbm-replication-extension

技术品味:从Stata到pyfixest

这篇 2020 年原著论文完全基于 Stata 编写。要用 Python 复现它,最大的坑在于高维固定效应(Fixed Effects)的处理。

如果 AI 只是简单调用通用的 statsmodels ,很难做到结果完全对齐。

打开 requirements.txt ,第 4 行直接解释了为什么这次复现能如此精准:

# requirements.txt
pandas>=1.3.0
numpy>=1.20.0
statsmodels>=0.12.0
pyfixest>=0.18.0  <-- Claude 选用了 Stata 的最佳平替
linearmodels>=4.25

Claude Code 显然知道 pyfixest 是复刻 Stata reghdfe 命令的最佳选择。

在 replication_comparison.md 中,生成了一份对照表,清晰地展示了它是如何将 Stata 语法像素级映射到 Python 的。

〓 图1. AI 将 Stata 的 reghdfe 精确映射为 Python 的 pyfixest,并保留了 CRV1 聚类标准误设置。

注意看截图中的参数 vcov={"CRV1": "county_id"} 。这种对聚类标准误(Clustered SE)的精确控制,直接保证了结果的精度。

复现报告显示,所有 12 个回归系数的差异全部为 0.000。

工程交付

很多人以为 AI 写代码就是甩给你几个 .py 文件,但这个仓库展示了什么是标准工程交付。

Claude Code 最终 Push 到 GitHub 上的不是单文件脚本,而是一个分层清晰的工程仓库,包含 code (核心逻辑)、 data (数据清洗与存储)、 output (图表与论文产出)以及 notes (详细开发笔记)。

这种结构化交付通常需要受过良好训练的研究助理才能完成。

〓 图2. GitHub 仓库完整文件结构

数据扩展与新知发现

这一步是 Agentic 能力最显著的体现。

原研究数据截止至 2018 年。Claude Code 在接收到扩展指令后,并未被动等待投喂,而是自主锁定了官方数据源,并编写脚本完成了 2024 年新数据的下载与清洗。

它自主检索并整合了 2019 至 2024 年的加州选举与人口普查数据,生成了新的数据集。

它不仅延续了原有的分析框架,还基于新数据重新绘制了平行趋势图,将时间跨度拉长了 6 年。

〓 图3. 论文记录了 AI 自主锁定的数据源,包括 2024 年总统大选数据和加州官方投票数据。

更有意思的是,它不仅推翻了旧结论,还找到了破案线索。

通过引入新数据,AI 发现虽然通用邮寄投票增加了投票率,但早期研究中观察到的“对民主党得票率的微弱正向影响”,在引入 2024 年数据后消失了(变得不显著)。

〓 图4. 引入新数据后(浅色柱),原有的民主党得票率效应(深色柱)不再显著。

Claude 并没有止步于此。它在论文中指出,原研究观察到的微弱效应其实是选择性偏差(Selection Bias)。

它通过安慰剂检验(Placebo Test)敏锐地发现,2018 年首批试点县早在政策实施前的 2016 年,就已经表现出了显著的预趋势(Pre-trends)。

〓 图5. 试点县在政策实施前已存在显著预趋势,揭示了原结论可能源于选择性偏差。

这种能通过反事实推理来纠正人类前作的能力,才是 Vibe Researching 最可怕的地方。

核心机制:基于约束的指令工程

实验成功的关键,在于作者通过 INSTRUCTIONS.md 建立了一套严密的工作流。

他在里面做了两个关键动作,注入知识,以及设立红灯。

1. 知识注入

在 Phase 1,作者并没有让 AI 瞎猜模型,而是明确要求 AI 阅读原论文,并直接在指令中注入了核心计量方程:

这相当于人类提供了“数学骨架”,AI 只需要负责往里填充血肉。

2. 防幻觉协议

针对 AI 容易瞎编参考文献的通病,Task 1.2 设立了一条极其具体的规则,强制要求 AI 核实每一篇参考文献的真实性,否则不予引用。

# INSTRUCTIONS.md (Task 1.2)
**CRITICAL**: Mark each paper as "Verified" only if you confirmed it exists. 
If you cannot verify a paper, do not include it.

3. Human-in-the-Loop

即便有严密的指令,AI 依然会有逻辑偏差,这时候就体现出 Human-in-the-loop 的价值了。

 04_extension_analysis.py 的注释里保留了一段很有意思的细节。

分析阶段,作者扫了一眼 Event Study 的图表,凭直觉觉得不对劲。Claude 随后诊断出自己错误地排除了对照组。

在修复代码时,它甚至放弃了自动函数,改用手动循环来构建哑变量,并写下了“长记性”的注释:

# 04_extension_analysis.py (Lines 135-137)
"""
IMPORTANT: Includes all CA counties (both VCA adopters and never-treated)
to ensure never-treated counties serve as controls in the DiD framework.
"""

# ... (Lines 153-157)
# For never-treated counties, all dummies are 0 (they serve as controls)
for t in event_times:
    if t == -2: continue
    col = f'et{t}'.replace('-', 'm')
    df_sub[col] = ((df_sub['event_time'] == t)).fillna(False).astype(int)

这段代码就是 Vibe Researching 的真实写照,AI 负责执行和排查,人类负责基于直觉进行最终验收。

最简模式

虽然效果震撼,但我们必须看到这仅仅是一个开始。作者在复盘中非常诚恳地列出了当前的局限性,这对于试图复制该模式的研究者至关重要。

局限一:公共数据的“幸存者偏差”

作者坦言这是一个最简案例(Easiest Case)。之所以能顺利扩展,是因为该研究完全依赖公共数据(Public Data)。AI 可以轻松爬取网上的公开记录。

但一旦涉及需要购买或存储在离线环境中的私有数据(Proprietary Data),如详细的选民档案(Voter File),目前的 AI Agent 仍无法触达。

局限二:自然实验的变异枯竭

在扩展分析中,AI 发现犹他州(UT)和华盛顿州(WA)在 2018 年后已经没有任何新的政策变异(Variation),所有的扩展效应其实都只来自加州。

这意味着 AI 虽然能跑通流程,但它无法解决“现实世界数据缺乏变异”这一因果推断的根本难题。

局限三:复杂干扰项的处理

2020 年的选举数据受到 COVID-19 的严重干扰。虽然 AI 跑出了结果,但在处理这种复杂的历史混杂因素(Confounder)时,它是否能像人类学者那样细腻地进行剔除或加权,目前仍存疑。

结语

作者最后给出了一个惊人的预测,单个学者未来一年将能产出数千篇实证论文。

这让人既兴奋又恐怖。如果预言成真,我们将面临什么?

第一,科研产出的恶性通胀。

当洗数据、跑回归、画图表的边际成本趋近于零,平庸的实证研究将泛滥成灾。期刊的审稿压力将呈指数级上升,学术界可能被迫发明新的筛选机制。

第二,核心竞争力的彻底重构。

对于研究人员而言,技能树变了:

以前拼什么:拼谁 Stata/Python 代码写得溜,拼谁能熬夜清洗脏数据。

以后拼什么:

  • 品味 (Taste):你能否提出一个 AI 提不出的好问题?

  • 设计 (Design):你能否构建一套像 INSTRUCTIONS.md 那样严密的逻辑闭环?

  • 审计 (Audit):当 AI 一分钟跑出 10 张图,你是否有能力一眼看出哪张图的置信区间不对劲?

未来的顶级学者,不再是那个写代码最快的人,而是那个最会给 AI 下指令、且最擅长做 Code Review 的人。

🎁 彩蛋

想亲自体验一下 Vibe Researching 吗?

这是 Andrew Hall 公开的 Prompt 原文,建议直接收藏并在自己的科研项目中尝试:

# Starter Prompt for Claude Code

Copy and paste everything below into Claude Code to begin the project:

---

## CRITICAL WORKFLOW REQUIREMENTS

**YOU MUST FOLLOW THESE RULES. THEY ARE NON-NEGOTIABLE.**

1. **NEVER claim something works without running a test to prove it.** After writing any code, immediately write and run a test. If you cannot test it, say so explicitly.

2. **Work modularly.** Complete one module at a time. After each module, report what you built, show test results, and waitfor confirmation before proceeding.

3. **Iterate and fix errors yourself.** Do not rely on the user to report errors back to you. Run the code, observe the output, and fix problems before presenting results.

4. **Be explicit about unknowns.** If you're uncertain about something, say so. Don't guess.

5. **Use python3 and pip3.** Always use `python3` (not `python`) and `pip3` (not `pip`) for all commands.

---

## PROJECT INSTRUCTIONS

Read `INSTRUCTIONS.md` in this directory. It contains detailed guidance for replicating and extending a published political science paper on vote-by-mail.

**Your task**: Follow the instructions phase by phase, starting with Phase 0 (Project Setup).

**Critical rule**: At each checkpoint marked with 🛑, you must:
1. Summarize what you have completed
2. Present key outputs for review
3. List any issues or concerns
4. **STOP and waitfor my explicit approval before proceeding to the next phase**

Do not skip checkpoints. Do not proceed past a 🛑 without my approval.

**Begin now with Phase 0.**

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐