更好的数据才是一切:Datology 创始人 Ari Morcos 谈 Data Curation 的未来
在过去两年里,大模型几乎以光速发展:参数量从百亿级推到万亿级,算力投入也从几千万美金飙升到数十亿美金。然而,我们也能明显感觉到,近来新模型的能力提升正在趋缓。算力和参数的堆叠,边际效益不断递减。于是问题来了——**Scaling Laws 是否已经失效?我们真的撞上了“数据墙”吗?**DatologyAI 创始人 **Ari Morcos** 给出的答案是:**数据才是影响 AI 研究的最大变量,
在过去两年里,大模型几乎以光速发展:参数量从百亿级推到万亿级,算力投入也从几千万美金飙升到数十亿美金。然而,我们也能明显感觉到,近来新模型的能力提升正在趋缓。算力和参数的堆叠,边际效益不断递减。于是问题来了——Scaling Laws 是否已经失效?我们真的撞上了“数据墙”吗?
DatologyAI 创始人 Ari Morcos 给出的答案是:数据才是影响 AI 研究的最大变量,但长期以来投入最少。
从神经科学到 AI:一条经验科学驱动的路径
Ari 并非计算机科班出身,而是神经科学博士。他曾研究小鼠“数数”的神经机制,由此养成了“先实验理解系统,再改进系统”的科学思维。
在 2011 年 AlexNet、DQN 等里程碑模型出现后,他转向机器学习,并希望为深度学习建立一套“可解释的科学框架”。
然而他很快意识到:理解为什么有效并不难,难的是利用这种理解真正提升系统性能。
在 2020 年研究归纳偏置时,他发现:
- 在小数据场景下,精心设计的偏置确实有用;
- 但在百万级以上的数据规模下,这些偏置反而成为负担;
- 相比之下,Transformer 这种偏置更少的架构,却在大数据上表现优异。
这正是著名的 “苦涩的教训”(The Bitter Lesson):算力与数据的结合,往往胜过人类专家知识的技巧。于是他下定决心:不做硬件,就专注数据。
数据在 AI 研究中为何长期被忽视?
Ari 认为,数据的重要性被严重低估,原因有三:
- 文化偏见:数据工作被视为“脏活累活”,缺乏学术荣誉感;
- 研究激励错位:过去的范式是固定数据集 → 优化模型性能,导致大家忽略数据;
- 范式变化:从监督学习到自监督学习,数据量从百万级暴涨到万亿级,问题从“缺数据”转变为“数据太多”,质量下限消失。
结论: 模型只是数据的镜像,Garbage In Garbage Out。数据质量的重要性被推到前所未有的高度。
Data Curation:不仅仅是清洗
很多人把 Data Curation 理解成筛选/清洗,但 Ari 强调,它是一个系统工程,包含:
- Filtering(过滤):识别并剔除低质量、低信息增益数据;
- Rebalancing(重均衡):处理长尾分布,保证模型学到完整知识;
- Sequencing(序列化):通过课程学习合理安排喂数据的顺序;
- Synthetic Data(合成数据):生成高质量补充样本,填补原始分布空白;
- Batching(批处理):如何组织批次影响训练速度。
其中两个关键理念是:
- 冗余:完全去掉冗余会伤害泛化,冗余过多则是灾难;
- 自动化:人类专家无法全局评估数据点价值,必须依赖算法自动化。
合成数据:机会与风险
合成数据是热门方向,但存在 模型坍塌 风险。Ari 将其分为两类:
- 从无到有:模型生成新知识,风险大,容易坍塌;
- 转述或重写:更安全,将原始数据用新形式组织,信息源头仍是原始数据。
Datology 在论文 Beyond Web 中总结了七点经验,例如:
- 好的种子数据重要,但需要策略组合;
- 数据多样性是长期提升的关键;
- 改写器模型不必很大,小模型也能胜任。
结果显示,在 3B 模型上使用 BeyondWeb 数据,性能甚至超过了在普通数据上训练的 8B 模型。
Datology 的价值:Faster / Better / Smaller
Ari 用三个词概括 Datology 的价值:
- Faster:训练速度快,迭代周期缩短,从 10 天变成一夜;
- Better:同样预算下,模型性能更优;
- Smaller:更小的专用模型在推理成本和可靠性上更具优势。
在实际案例中,Datology 将 25 万亿 token 的原始池子筛选到 7 万亿高质量数据,结果模型更强,训练更快。这证明 Data Curation 的收益可叠加。
结语:AI 的尽头是更好的数据
当行业还在算力和模型规模上“内卷”时,真正能改写游戏规则的,也许正是对数据的重新认识。
Ari 的愿景是:让 Data Curation 自动化、工具化,成为每个团队都能触手可及的基础设施。
也许,未来的 AI 竞争,不再是“谁的模型更大”,而是“谁的数据更好”。
一个属于 Data Curation 的时代,正在到来。
更多推荐
所有评论(0)