数十万的AI Agent生态里，找不到一个是给 3D 研究人员的Skill？

本文介绍了作者开发的3D高斯溅射（3DGS）相关技能项目，旨在填补OpenClaw技能生态中3D视觉领域的空白。作者指出，尽管3DGS已成为计算机视觉热门方向并在工业领域快速落地，但现有13,729个注册技能中竟无相关工具。为此，作者开发了6个实用技能，包括论文阅读辅助、方法对比、代码审查等，专门解决3DGS研究者日常工作中的痛点。这些技能采用简单的Markdown格式，便于AI执行和社区协作改进

jaccen

376人浏览 · 2026-04-28 12:22:53

jaccen · 2026-04-28 12:22:53 发布

先亮一下我最近的两个skill，欢迎指正、共同参与优化：
https://github.com/jaccen/Awesome-Gaussian-Skills

https://github.com/jaccen/cg-paper-writing-Skill

写这个的初衷

2026 年 1 月，OpenClaw（江湖称“小龙虾”）以火箭般的速度登顶 GitHub，星标数从不到 1 万飙升至 35 万+[✓]。与此同时，其技能生态 ClawHub 的注册技能数已突破 13,729+[✓]，腾讯朱雀实验室 4 月的全量扫描报告更是显示，ClawHub 上的 Skill 总量已达近 50,000 个[✓]。

VoltAgent 维护的 awesome-openclaw-skills 仓库已从这海量技能中筛选出 5,400+ 个优质技能，自身也收获了 47,200+ stars[✓]。

然而，在这片繁荣的技能海洋里，有一个领域完全是空白的。作为从事AI、Agent、3D相关的研究者以及工程应用实践者，想贡献一点微薄之力。

1.3万个Skill，3D视觉一个没有

我用“3D”“视觉”“图形学”“重建”“NeRF”“Gaussian”分别搜了一遍。结果都是0。不是搜出来的质量不行，是根本就没有。1.3万个注册技能，近5万个实际文件，没有一个是为三维视觉/图形学研究者准备的。

这个空白有点不合常理。3DGS自2023年Kerbl等人在SIGGRAPH发表以来，已经成为计算机视觉领域产出最密集的方向之一。MrNeRF维护的awesome-3d-gaussian-splatting仓库有8500多星，专门追踪这个方向的论文。浙大团队2024年初发的综述（arXiv 2401.03890）梳理了几十种变体，到今年南大和中科院计算所的新综述，方法数量又翻了几倍。arXiv上几乎每天都有新的3DGS论文出来。

而且3DGS已经不只是学术概念了。它在产业端的落地速度比大多数人意识到的要快。

3DGS的产业落地：几个有明确来源的案例

清华大学的研究团队在IROS 2025上发表了CRUISE项目，用3DGS构建可编辑的V2X数字孪生世界。车路协同（V2X）需要海量的仿真场景来训练自动驾驶算法，传统方法建模周期长、场景单一。CRUISE用3DGS实现了车辆、道路、交通标志等场景元素的可控编辑和实时渲染，能够快速生成多样化的车路协同视角仿真数据。

某某企业在工业场景中做了探索。其自研的引擎结合深度学习与高斯溅射算法，通过多视角图像和视频数据的智能分析，实现了工业机器人场景的三维重建与实时交互，同时提供AI算法辅助机械臂的轨迹规划。这种“视觉重建+智能决策”的组合，是3DGS从“看得见”走向“能用”的一个典型路径。

香港科技大学张佳莹团队利用3DGS做古建筑的数字孪生保护。这项研究将多模态大语言模型与3DGS结合，构建了一个遗产建筑数字孪生智能体，能够高精度还原古建筑的细节，包括雕刻纹理、结构缺陷等信息，并提供自然语言交互接口。对于文化遗产保护而言，这种“可交互的数字存档”比纯粗粒度的三维扫描有用得多。

景区和园区数字孪生也是3DGS的重要落地场景。众多国内厂商已经将3DGS应用于大范围景区的三维重建，处理弱纹理区域（植被、古建筑立面、石刻等）时表现出更高的稳定性，同时降低了模型体量与渲染负担。易知微在《2025数字孪生与智能算法白皮书》中把3DGS定义为数字孪生的“新一代数据引擎”。

CAD与3DGS的互补关系

值得一提的是CAD与3DGS的互补性。CAD解决的是“精确设计”问题：参数化建模，可以控制到毫米级精度，直接对接加工设备。3DGS解决的是“高保真可视化”问题：通过拍照重建真实场景，保留表面细节和纹理，支持实时渲染交互。

在工业数字孪生场景中，这两者的结合正在变得越来越常见。CAD提供设备的参数化工程模型，3DGS提供设备当前实际状态的高保真重建（比如管道锈蚀、标识磨损等），二者叠加后能够实现“设计状态与运行状态的对比”，这对设备运维和故障诊断有实际价值。这也是当前三维数字化领域的一个明确趋势。

做一个3DGS方向的研究者，日常在干什么

3D的同行每天的工作流程大概是这样的：

读论文。3DGS方向现在每天的产出量，让“追踪文献”本身就成了一个全职工作。认真读完一篇3DGS论文（方法、实验、与已有工作的区别），大概需要40分钟到1小时。每天来5到10篇新论文，你算算时间。

对比方法。3DGS的变体太多了，GS、2DGS、Scaffold-GS、SignGS、NegGS……每一个都在不同的地方做了改进。每次想搞清楚两个方法的核心区别，得打开好几篇PDF，翻到各自的实验章节，手动对齐评价指标和实验设置，半天就过去了。

查代码的bug。3DGS的底层代码涉及大量CUDA操作，高斯裁剪的边界条件、显存泄漏、球谐函数的阶数溢出……这些坑不是看文档能发现的，基本靠踩。投稿前做一次完整的代码审查，在我这里通常要一到两天。

设计消融实验。每写一篇论文都要做。哪些变量要控制，哪些基线要跑，数据集怎么选，这个事情没有标准流程，完全看个人经验。我见过有人实验做了一半发现少了一组对照，从头来过。

从NeRF迁移到3DGS。两个方向有很多概念上的对应关系（体密度对应不透明度，射线采样对应高斯排序），但这些对应关系没有一份系统性的文档。每次迁移都要从零查资料，花个三五天很正常。

写论文。通用写作工具对图形学领域没有适配，格式、术语、行文习惯都要自己调。

这些工作的本质是，3DGS领域的经验性知识大量分散在论文的角落和个人脑子里，没有被结构化地整理出来。AI Agent能帮忙的前提是这些知识得先被写下来，而且要用AI能执行的格式书写。

一个200行的Markdown就能搞定

Karpathy的那个项目给了我很大的启发。他的做法很简单：把LLM编程的准则拆成具体的规则，写成Markdown，告诉Claude Code“遇到这种情况就这么做”。不需要框架，不需要API，不需要部署环境。

OpenClaw的Skill也是这个思路。一个标准的 SKILL.md 就是一个 YAML 头加上 Markdown 正文。YAML 头定义名称、描述和触发条件，正文写具体的操作步骤、工具调用方式和输出格式。

我们做的事情并不复杂。基于自己在3DGS方向积累的经验，把上面提到的那些重复性工作分别封装成Skill。第一批做了6个：

Skill	功能	解决的痛点
3dgs-paper-reader	论文结构化总结，输出方法/实验/创新点的结构化摘要	每天读5-10篇新论文，快速抓核心
3dgs-method-compare	十几个维度的自动化方法对比	手动整理GS/2DGS/SignGS等变体差异
3dgs-code-reviewer	3DGS专属的CUDA/Python代码审查	识别常见问题模式（高斯裁剪、显存泄漏等）
3dgs-experiment-planner	消融实验方案自动设计	生成数据集/基线/变量组合，避免漏实验
nerf-to-3dgs-migrator	NeRF到3DGS的迁移指南	不用从零查资料，直接映射核心组件
cg-paper-writing	图形学顶会论文写作助手	适配SIGGRAPH/ICCV等格式，去AI痕迹