从 RNN 到 GPT:大模型架构演化史

大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。
图书作者:《ESP32-C3 物联网工程开发实战》
图书作者:《SwiftUI 入门,进阶与实战》
超级个体:COC上海社区主理人
特约讲师:大学讲师,谷歌亚马逊分享嘉宾
科技博主:华为HDE/HDG
我的博客内容涵盖广泛,主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告,同时也会提供产品优缺点分析、横向对比,并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。
展菲:您的前沿技术领航员
👋 大家好,我是展菲!
📱 全网搜索“展菲”,即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文,从新兴框架的剖析到运维实战的复盘,助您技术进阶之路畅通无阻。
文章目录
引言
过去十几年,大模型架构几乎每隔几年就会发生一次革命。
很多人看到的是:
RNN
↓
LSTM
↓
Transformer
↓
GPT
↓
MoE
↓
Agent
但真正推动这条演化路线的,并不是论文,而是一个始终没有改变的问题:
如何让 AI 更好地理解上下文,同时以更低的成本完成更复杂的任务?
回顾整个 AI 架构的发展,你会发现每一代模型其实都在解决上一代留下的瓶颈。
今天,我们就从系统架构的角度,回顾这十几年的 AI 架构演化史。
一、RNN:第一次让 AI 拥有「记忆」
在 RNN 出现之前,大多数神经网络都是:
输入
↓
计算
↓
输出
每个词都是独立处理,模型根本不知道:
今天
天气
很好
三个词之间存在关联。
RNN 引入了 Hidden State,把上一时刻的信息传递给下一时刻。
整个流程变成:
Token1
↓
Hidden State
↓
Token2
↓
Hidden State
↓
Token3
模型第一次拥有了:
上下文
顺序
短期记忆
机器翻译、语音识别等任务因此取得了巨大突破。
二、为什么 RNN 注定会失败?
RNN 最大的问题不是效果,而是架构。
所有 Token 都必须按顺序计算:
Token1
↓
Token2
↓
Token3
无法并行,而 GPU 最擅长的是:
矩阵计算
随着模型越来越大,GPU 的计算能力越来越强,但 RNN 却无法充分利用这些算力。
同时,Hidden State 还会随着序列变长不断衰减,导致经典的问题:
梯度消失
长期依赖
因此,RNN 的瓶颈其实不是算法,而是计算架构。
三、LSTM:给 RNN 加了一块「记忆芯片」
LSTM 可以理解为升级版 RNN,它引入了 Memory Cell,并增加:
Forget Gate
Input Gate
Output Gate
三种门控机制,模型终于可以决定:
哪些信息保留?
哪些信息遗忘?
相比普通 RNN,LSTM 能够处理更长的文本,也成为 NLP 的主流架构。
但遗憾的是,它依然保留了 RNN 最大的问题:
串行计算。
GPU 利用率始终提不上来。
四、Transformer:真正改变世界的是并行计算
2017 年,《Attention Is All You Need》发布。很多人认为,Transformer 最大的创新是 Self-Attention。
其实,从工程角度来看,真正改变 AI 世界的是:
Transformer 第一次真正拥抱了 GPU。
过去:
Token1
↓
Token2
↓
Token3
必须依次执行,现在:
所有 Token
↓
同时进入 Self-Attention
↓
并行计算
训练速度得到数量级提升。Transformer 不仅解决了长期依赖问题,还让 GPU 的计算能力得到充分释放。
AI 开始进入 Scale Up 时代。
五、为什么最终赢的是 GPT,而不是 BERT?
Transformer 发布之后,最先爆火的是:
BERT
它采用 Encoder Only 架构,理解能力很强。但真正改变行业的是 GPT。
原因在于 GPT 采用了 Decoder Only 架构,训练目标非常简单:
预测下一个 Token
这种方式更容易:
扩展参数
扩展数据
扩展算力
于是 OpenAI 发现了著名的:
Scaling Law
模型越大,数据越多,算力越强,模型能力几乎持续提升。
GPT 真正改变世界的,并不是架构,而是证明了:
模型可以通过持续扩大规模不断获得更强能力。
六、MoE:参数越来越大,成本却越来越低
随着 GPT 参数不断增长,一个新的问题出现了。例如:
600B 参数
每生成一个 Token,都需要激活全部参数。推理成本急剧增加,于是 MoE(Mixture of Experts)开始流行。
它把模型拆成多个 Expert:
Router
↓
Expert 1
Expert 8
Expert 21
每次推理只激活少量 Expert。例如:
671B 参数
↓
仅激活 37B
模型能力保持增长,而推理成本却大幅下降。
DeepSeek、Mixtral、Qwen-MoE 等模型都采用了这一思路。
七、Agent:AI 正在从模型演变成系统
今天,大模型的发展方向已经不再只是:
更大的参数
更高的分数
而是:
Planner
Memory
Tool
Workflow
Runtime
越来越多能力开始从模型内部迁移到系统架构。
传统 GPT:
Prompt
↓
LLM
↓
Response
Agent:
Goal
↓
Planner
↓
Tool
↓
Memory
↓
LLM
↓
Execution
此时,大模型更像 CPU。真正负责完成任务的是 Runtime。
AI 正在从一个模型演变成一个完整的智能系统。
总结:AI 架构演化的真正主线
如果回顾过去十几年的发展,会发现每一次架构升级,其实都是为了突破一个工程瓶颈。
传统神经网络
│
▼
RNN(解决上下文)
│
▼
LSTM(解决长期依赖)
│
▼
Transformer(解决并行计算)
│
▼
GPT(解决规模扩展)
│
▼
MoE(解决推理成本)
│
▼
Agent(解决任务执行)
换句话说,AI 架构的发展从来不是简单的技术迭代,而是一场围绕 记忆、计算、扩展、成本和执行能力 展开的持续演进。
过去十年,行业竞争的是:
谁的模型更大。
未来十年,更重要的问题可能变成:
谁的智能系统效率更高。
因为对于下一代 AI 来说,Transformer、GPT、MoE 都只是智能的基础组件,而真正决定生产力的,将是围绕模型构建的 Memory、Planner、Tool 与 Runtime。
更多推荐



所有评论(0)