从 RNN 到 GPT：大模型架构演化史

Swift社区

13人浏览 · 2026-06-26 11:05:26

Swift社区 · 2026-06-26 11:05:26 发布

在这里插入图片描述

网罗开发 （小红书、快手、视频号同名）

大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者：《ESP32-C3 物联网工程开发实战》
图书作者：《SwiftUI 入门，进阶与实战》
超级个体：COC上海社区主理人
特约讲师：大学讲师，谷歌亚马逊分享嘉宾
科技博主：华为HDE/HDG

我的博客内容涵盖广泛，主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告，同时也会提供产品优缺点分析、横向对比，并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲：您的前沿技术领航员
👋 大家好，我是展菲！
📱 全网搜索“展菲”，即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文，从新兴框架的剖析到运维实战的复盘，助您技术进阶之路畅通无阻。

文章目录

引言

过去十几年，大模型架构几乎每隔几年就会发生一次革命。

很多人看到的是：

RNN

↓

LSTM

↓

Transformer

↓

GPT

↓

MoE

↓

Agent

但真正推动这条演化路线的，并不是论文，而是一个始终没有改变的问题：

如何让 AI 更好地理解上下文，同时以更低的成本完成更复杂的任务？

回顾整个 AI 架构的发展，你会发现每一代模型其实都在解决上一代留下的瓶颈。

今天，我们就从系统架构的角度，回顾这十几年的 AI 架构演化史。

一、RNN：第一次让 AI 拥有「记忆」

在 RNN 出现之前，大多数神经网络都是：

输入

↓

计算

↓

输出

每个词都是独立处理，模型根本不知道：

今天

天气

很好

三个词之间存在关联。

RNN 引入了 Hidden State，把上一时刻的信息传递给下一时刻。

整个流程变成：

Token1

↓

Hidden State

↓

Token2

↓

Hidden State

↓

Token3

模型第一次拥有了：

上下文

顺序

短期记忆

机器翻译、语音识别等任务因此取得了巨大突破。

二、为什么 RNN 注定会失败？

RNN 最大的问题不是效果，而是架构。

所有 Token 都必须按顺序计算：

Token1

↓

Token2

↓

Token3

无法并行，而 GPU 最擅长的是：

矩阵计算

随着模型越来越大，GPU 的计算能力越来越强，但 RNN 却无法充分利用这些算力。

同时，Hidden State 还会随着序列变长不断衰减，导致经典的问题：

梯度消失

长期依赖

因此，RNN 的瓶颈其实不是算法，而是计算架构。

三、LSTM：给 RNN 加了一块「记忆芯片」

LSTM 可以理解为升级版 RNN，它引入了 Memory Cell，并增加：

Forget Gate

Input Gate

Output Gate

三种门控机制，模型终于可以决定：

哪些信息保留？

哪些信息遗忘？

相比普通 RNN，LSTM 能够处理更长的文本，也成为 NLP 的主流架构。

但遗憾的是，它依然保留了 RNN 最大的问题：

串行计算。

GPU 利用率始终提不上来。

四、Transformer：真正改变世界的是并行计算

2017 年，《Attention Is All You Need》发布。很多人认为，Transformer 最大的创新是 Self-Attention。

其实，从工程角度来看，真正改变 AI 世界的是：

Transformer 第一次真正拥抱了 GPU。

过去：

Token1

↓

Token2

↓

Token3

必须依次执行，现在：

所有 Token

↓

同时进入 Self-Attention

↓

并行计算

训练速度得到数量级提升。Transformer 不仅解决了长期依赖问题，还让 GPU 的计算能力得到充分释放。

AI 开始进入 Scale Up 时代。

五、为什么最终赢的是 GPT，而不是 BERT？

Transformer 发布之后，最先爆火的是：

BERT

它采用 Encoder Only 架构，理解能力很强。但真正改变行业的是 GPT。

原因在于 GPT 采用了 Decoder Only 架构，训练目标非常简单：

预测下一个 Token

这种方式更容易：

扩展参数

扩展数据

扩展算力

于是 OpenAI 发现了著名的：

Scaling Law

模型越大，数据越多，算力越强，模型能力几乎持续提升。

GPT 真正改变世界的，并不是架构，而是证明了：

模型可以通过持续扩大规模不断获得更强能力。

六、MoE：参数越来越大，成本却越来越低

随着 GPT 参数不断增长，一个新的问题出现了。例如：

600B 参数

每生成一个 Token，都需要激活全部参数。推理成本急剧增加，于是 MoE（Mixture of Experts）开始流行。

它把模型拆成多个 Expert：

Router

↓

Expert 1

Expert 8

Expert 21

每次推理只激活少量 Expert。例如：

671B 参数

↓

仅激活 37B

模型能力保持增长，而推理成本却大幅下降。

DeepSeek、Mixtral、Qwen-MoE 等模型都采用了这一思路。

七、Agent：AI 正在从模型演变成系统

今天，大模型的发展方向已经不再只是：

更大的参数

更高的分数

而是：

Planner

Memory

Tool

Workflow

Runtime

越来越多能力开始从模型内部迁移到系统架构。

传统 GPT：

Prompt

↓

LLM

↓

Response

Agent：

Goal

↓

Planner

↓

Tool

↓

Memory

↓

LLM

↓

Execution

此时，大模型更像 CPU。真正负责完成任务的是 Runtime。

AI 正在从一个模型演变成一个完整的智能系统。

总结：AI 架构演化的真正主线

如果回顾过去十几年的发展，会发现每一次架构升级，其实都是为了突破一个工程瓶颈。

传统神经网络
        │
        ▼
RNN（解决上下文）
        │
        ▼
LSTM（解决长期依赖）
        │
        ▼
Transformer（解决并行计算）
        │
        ▼
GPT（解决规模扩展）
        │
        ▼
MoE（解决推理成本）
        │
        ▼
Agent（解决任务执行）

换句话说，AI 架构的发展从来不是简单的技术迭代，而是一场围绕 记忆、计算、扩展、成本和执行能力 展开的持续演进。

过去十年，行业竞争的是：