前言

上篇我们聊了Scaling Law为何被频频唱衰——算力逼近物理极限,高质量数据濒临枯竭,模型参数膨胀带来的边际效益递减愈发明显。

很多人开始怀疑:AI是不是撞上了天花板?

但历史告诉我们,技术演进从不会因为一条路径受阻就戛然而止。当“爬树”无法抵达月亮,人类就造出了火箭。

今天这篇下篇,不谈悲观论调,只讲出路!!!

我们将深入探讨Scaling Law在当前约束下的“变形记”:它如何通过合成数据补给燃料、借新架构提升效率、用稀疏化控制成本、靠系统优化榨干每一分算力。这不是对Scaling Law的否定,而是它的升级与重构。大模型的黄金时代远未结束,只是玩法变了。接下来,请系好安全带,我们一起去看看AI登月的新火箭,已经点火到了哪一步。

1. 合成数据:从“无米之炊”到“人造粮仓”

1.1 数据枯竭是真问题,不是危言耸听

当前主流大模型训练数据量已逼近人类公开文本的总量。Llama 3使用14万亿Token,几乎囊括了互联网上所有可抓取的英文、代码、百科、论坛内容。再往后,增量数据要么重复,要么低质,要么涉及隐私无法使用。这意味着,若继续沿用传统数据采集方式,Scaling Law的输入端将面临“断粮”风险。

数据不仅是燃料,更是知识的载体。模型性能的提升依赖于数据中蕴含的信息密度。当数据池见底,单纯扩大模型参数只会导致过拟合或幻觉加剧。这就像给一个已经读完所有图书馆藏书的人再塞进一堆重复的报纸——不仅无益,反而可能混淆认知。

1.2 合成数据不是“造假”,而是“知识蒸馏”

合成数据常被误解为“用AI生成AI训练数据”,听起来像闭环自嗨。但事实远比这复杂。真正有效的合成数据并非凭空捏造,而是在已有高质量数据基础上进行可控扩展任务导向生成

以指令微调(Instruction Tuning)为例:工程师提出一个问题“如何用Python读取CSV文件?”,让GPT-4生成标准答案,再用这对“问题-答案”训练自己的模型。这种做法本质上是将大模型的知识蒸馏为结构化训练样本,效率远高于人工标注。Meta、Mistral等公司早已大规模采用此类“半合成”策略,效果显著。

更进一步,DALL·E 3和Sora的成功,关键在于对原始图文/视频对的文本扩写。它们不是从零生成图像,而是将人类标注的简短描述(如“一只猫在沙发上”)扩展为包含光照、材质、姿态等细节的丰富提示(如“一只橘色虎斑猫慵懒地蜷缩在米色亚麻沙发上,午后阳光透过百叶窗洒在它身上,毛发泛着金光”)。这种“增强式合成”既保留了真实数据的物理一致性,又提升了模型对细节的理解能力。

1.3 全合成数据的边界:物理世界不可伪造

然而,并非所有领域都适合合成数据。在具身智能(Embodied AI)或自动驾驶中,模型需理解物理规律——重力、摩擦、碰撞动力学等。若用纯AI生成的“虚拟车祸”训练自动驾驶系统,可能学到违反物理定律的行为(如车辆穿墙、无惯性急停)。这类数据缺乏因果一致性,训练出的模型在现实世界中会失效。

AlphaGo之所以能用自我对弈生成数据,是因为围棋规则封闭、状态空间有限、胜负判定明确。而现实世界充满模糊性与开放性,全合成数据极易陷入“内部一致性陷阱”——模型在合成环境中表现完美,一到真实场景就崩溃。

因此,合成数据的有效性取决于任务的可验证性。数学题、代码、逻辑推理等有明确对错标准的任务,合成数据效果极佳;而涉及常识、物理、社会互动等模糊领域的任务,则需谨慎使用,必须辅以人工校验或物理仿真。

2. 架构革命:告别Transformer的“显存黑洞”

2.1 Transformer的甜蜜与苦涩

Transformer凭借并行训练优势,成为大模型时代的基石。但其推理阶段的自回归机制存在致命缺陷:每生成一个Token,都要重新计算所有历史Token的注意力权重。这导致KV Cache随上下文长度线性增长,显存占用爆炸。

以70B模型处理32K上下文为例,KV Cache可占显存80%以上。若扩展到百万Token,单卡根本无法承载。这不仅限制了长文本处理能力,更推高了推理成本——企业部署大模型时,70%的开销来自显存而非计算。

2.2 RWKV与Mamba:线性复杂度的破局者

RWKV(Receptance Weighted Key Value)提出一种全新思路:将Transformer的全局注意力机制替换为状态递归机制。它维护一个固定大小的隐藏状态(State),每次推理仅更新该状态,无需存储全部历史Token。其时间复杂度为O(1) per token,空间复杂度恒定。

Mamba在此基础上引入选择性状态空间模型(SSM) ,使模型能动态决定哪些信息需要保留、哪些可以遗忘。这既保留了RNN的高效推理特性,又具备Transformer的长程建模能力。实测显示,Mamba在语言建模任务上性能媲美Transformer,而推理速度提升3–5倍,显存占用减少50%以上。

微软与清华合作的RetNet、Google的RecurrentGemma等项目,均验证了这一方向的可行性。学术界已形成共识:下一代基础架构将融合RNN的效率与Transformer的表达力

2.3 混合架构:短期最优解

短期内,纯RNN类模型在训练并行度上仍逊于Transformer。因此,工业界更倾向混合架构——在训练阶段保留Transformer的高效并行,在推理阶段切换至线性注意力机制。

例如,某些模型在训练时使用标准Transformer,部署时通过知识蒸馏迁移到RWKV架构。另一些则在模型内部集成“注意力开关”,对短上下文用Attention,对长上下文自动切换至State机制。这种“训练-推理解耦”策略,兼顾了性能与效率,成为当前落地的主流方案。

3. 稀疏化与MoE:用“专家分工”控制成本

3.1 Dense模型的经济学困境

Scaling Law要求模型参数与数据量同步增长。但Dense模型(全参数激活)的训练与推理成本呈超线性增长。一个1.8T参数的Dense模型,其推理成本可能是70B模型的30倍以上。这对商业应用构成巨大障碍——用户不愿为高延迟、高费用买单。

3.2 MoE:专业的人做专业的事

Mixture of Experts(MoE)提供了一条折中路径:模型由多个“专家子网络”组成,每次推理仅激活其中2–4个最相关的专家。这样,模型总参数量可极大扩展(如Google的GLaM达1.2T参数),但实际计算量仅相当于一个小模型。

MoE的本质是计算稀疏化。它假设不同任务由不同知识模块处理——数学问题调用数学专家,编程问题调用代码专家。理想状态下,这能实现“规模不增成本,能力持续提升”。

3.3 MoE的现实挑战:专家不“专”

然而,当前MoE模型的专家分工并不理想。训练过程中,路由机制(Router)常出现“专家坍缩”——少数专家被过度使用,其余专家闲置。这导致模型实际能力远低于参数量所暗示的水平。

更严重的是,MoE增加了系统复杂度:专家间的负载均衡、通信开销、故障恢复等问题,使万卡集群训练难度陡增。Meta的Mixtral虽在开源社区广受好评,但其商业部署仍面临稳定性挑战。

因此,MoE是成本压力下的次优解,而非终极答案。未来方向可能是动态稀疏化——根据输入内容实时调整激活参数比例,或结合知识图谱实现更精准的专家路由。

4. 长上下文优化:从“硬扛”到“巧取”

4.1 长文本不是炫技,而是刚需

多模态时代,模型需处理视频、音频、长文档等高信息密度输入。一个1小时视频转文本可达50万Token,法律合同、科研论文动辄数十万字。若上下文窗口不足,模型将丢失关键信息,沦为“金鱼记忆”。

4.2 KV Cache压缩:减负第一招

最直接的优化是对KV Cache进行压缩。DeepSeek-V2采用低秩分解,将Key和Value矩阵近似为两个小矩阵的乘积,显存占用降低60%。另有研究对KV Cache进行3-bit量化,在几乎无损性能的前提下,使单卡支持百万Token上下文。

这些技术可叠加使用:量化+低秩+稀疏存储,形成“压缩组合拳”。未来,专用硬件(如支持稀疏计算的AI芯片)将进一步释放潜力。

4.3 内存版RAG:智能“外挂大脑”

另一种思路是借鉴RAG(检索增强生成),但将检索机制内置到模型内存中。谷歌的“无限上下文”方案即采用此策略:将长输入切分为块,存入可寻址的Memory Bank;推理时,模型根据当前需求动态检索相关块,而非加载全部内容。

这相当于给模型配备了一个“短期工作记忆+长期知识库”的双层架构,既避免了显存爆炸,又保留了信息完整性。该方法在代码生成、法律咨询等场景中已初见成效。

5. 系统工程:Scaling Law的最后一公里

5.1 MFU:被忽视的效率指标

Model FLOPs Utilization(MFU)衡量硬件计算资源的实际利用率。当前大模型训练MFU普遍低于50%,意味着一半算力被浪费在通信、调度、故障恢复等开销上。

在万卡集群中,单点故障频发。若任务中断后需从头训练,成本将不可控。领先团队已实现98.8%的训练有效率,关键在于秒级故障检测+增量 checkpoint。这不仅是算法问题,更是系统工程的胜利。

5.2 算力民主化的幻觉

尽管云厂商不断降价,但基础大模型训练仍是巨头游戏。一个70B模型的训练成本超千万美元,中小公司难以承受。真正的机会在于垂直场景的AI原生应用——用小模型解决具体问题,通过商业闭环反哺模型迭代。

未来,AI生态将分层:顶层由少数公司维护通用大模型,中层提供行业模型即服务(MaaS),底层是无数AI原生应用。Scaling Law的红利,将通过这种分层结构普惠整个产业。

6. 未来的AI:不止于拟合,更要理解

Yann LeCun长期质疑自回归模型缺乏“世界模型”。他认为,真正的智能需具备预测、规划、因果推理能力,而非仅靠统计拟合下一个Token。

这一观点正推动新范式出现:自监督预测模型(如I-JEPA) 通过预测世界状态的变化来学习表征,而非生成序列。这类模型在机器人控制、物理仿真中展现出更强的泛化能力。

未来的大模型,或许不再是“文本接龙机器”,而是能模拟分子动力学、预测病毒演化、推导数学猜想的“科学引擎”。那时,Scaling Law将不再只是关于参数与数据的公式,而是关于智能本质的探索

7. Scaling Law的突围路线图:五大核心解决方案全景图

面对算力、数据与架构的三重约束,Scaling Law并未终结,而是演化出一套系统性突围策略。这些方案并非孤立存在,而是相互协同、层层递进,共同构成大模型持续进化的技术底座。下表对当前主流解决方案进行结构化梳理:

解决维度 核心方案 技术原理 优势 局限 成熟度
数据供给 半合成数据增强 在真实数据基础上扩写/重构,提升信息密度 保持物理与逻辑一致性,提升模型细粒度理解 依赖高质量原始数据,人工干预成本高 ★★★★☆(工业级应用)
全合成数据生成 由模型自主生成训练样本(如指令对、代码) 可无限扩展,适用于规则明确任务 易陷入闭环幻觉,缺乏新知识注入 ★★★☆☆(特定场景可用)
模型架构 RWKV / Mamba类线性架构 用状态递归替代全局注意力,实现O(1)推理复杂度 显存占用低,支持超长上下文,推理成本骤降 训练并行度弱,长程依赖建模仍在验证 ★★★☆☆(学术验证,工业试用)
Transformer混合优化 训练用Attention,推理切换至线性机制 兼顾训练效率与推理性能 工程复杂度高,需蒸馏或重训练 ★★★★☆(头部厂商落地)
模型规模 MoE稀疏激活 每次推理仅激活部分专家子网络 参数量可极大扩展,计算成本可控 专家分工不均,路由机制不稳定 ★★★★☆(GPT-4、Mixtral已用)
上下文处理 KV Cache压缩(量化/低秩) 对注意力缓存进行数学近似或位宽压缩 显存占用降低50%+,单卡支持百万Token 极端压缩可能损伤长程记忆 ★★★★☆(DeepSeek-V2等已集成)
内存版RAG(动态检索) 将长输入切块存入可寻址Memory Bank 信息无损,上下文理论上无限 增加检索延迟,需设计高效索引 ★★★☆☆(Google等探索中)
系统工程 高MFU训练框架 优化通信、调度、故障恢复,提升硬件利用率 万卡集群训练有效率>98% 依赖底层基础设施深度定制 ★★★★☆(头部云厂商具备)
垂直场景小模型 聚焦特定领域,用更小模型+高质量数据 成本低、响应快、商业闭环清晰 通用性弱,需领域知识沉淀 ★★★★★(当前主流落地路径)

这些方案共同指向一个核心理念:Scaling Law的未来不在“更大”,而在“更聪明”
数据侧,我们从“采集”转向“生成与蒸馏”;架构侧,从“暴力并行”转向“高效递归”;规模侧,从“全参数激活”转向“按需调用”;系统侧,从“堆卡”转向“榨干每一分算力”。

真正的突破不在于某一项技术的单点胜利,而在于它们的有机融合——用合成数据喂养稀疏模型,用线性架构支撑长上下文,用高MFU系统承载万亿参数。这是一场从算法到芯片、从理论到工程的全栈协同进化。

Scaling Law的故事远未结束。它正从一条陡峭的指数曲线,裂变为一张多维的技术网络。在这张网上,每一个节点都是人类智慧对极限的回应,每一次连接都是通往AGI的新可能。

全篇结尾

我们站在一个转折点上。Scaling Law并未死亡,它只是脱下了“无限堆料”的外衣,换上了更精巧、更高效、更智能的新装。从合成数据到新架构,从稀疏化到系统优化,每一条路径都是人类智慧对物理极限的温柔反抗。AI的登月之旅,从来不是靠一棵树的高度,而是靠无数火箭的齐射。而今天,我们正亲手点燃其中一枚。

Logo

更多推荐