一、GPT-1:奠基之作

1. 模型架构

  • 基于 Transformer Decoder 模块,但移除了第二个 encoder-decoder attention 子层,仅保留 Masked Multi-Head Attention 和 Feed Forward 层。
  • 使用 12 层 Decoder Block(经典 Transformer 解码器为 6 层)。
  • 单向语言模型:预测当前词时,只利用前文信息 [u1, u2, ..., u(i-1)]

2. 训练过程

分为两个阶段:

  1. 无监督预训练:最大化条件概率 P(ui∣ui−k,...,ui−1)P(ui​∣ui−k​,...,ui−1​),学习语言建模能力。
  2. 有监督微调:针对具体下游任务(分类、蕴含、相似度、多选等)添加任务特定的分类层,并在标注数据上训练。

3. 数据集

  • BooksCorpus(5GB,7400 万句,7000 本书)。
  • 特点:高质量长文本,未在下游任务中出现,利于泛化。

4. 参数与特点

  • 层数:12
  • 隐藏维度:768
  • 注意力头数:12
  • 总参数量:1.17 亿
  • 优点:在 9 个任务上达到 SOTA,更易并行化。
  • 缺点:单向建模,任务适配需额外微调。

二、GPT-2:Zero-shot 的提出

1. 架构改进

  • Pre-LayerNorm:LayerNorm 放在 Self-Attention 和 Feed Forward 之前,减少梯度消失/爆炸风险。
  • 最后一层 Transformer Block 后增加 LayerNorm。
  • 输入序列最大长度从 512 扩展到 1024

2. 核心思想

  • 仅使用 无监督预训练,不再进行下游任务微调。
  • 提出 zero-shot:通过自然语言提示(prompt)直接完成任务,无需额外标注数据。
  • 输入格式需与训练文本形式一致,例如:
    • 翻译:translate to french, {english text}, {french text}
    • 阅读理解:answer the question, {document}, {question}, {answer}

3. 数据集

  • WebText(8 百万篇文章,40GB),来源于 Reddit 高赞链接内容。
  • 移除 Wikipedia 文章以避免与测试集冲突。

三、GPT-3:规模驱动的能力跃迁

1. 架构与规模

  • 仍基于 Transformer 架构,无结构性创新。
  • 核心变化是 参数规模和数据量的极大提升,达到数千亿参数级别。

2. 能力与局限

  • 得益于庞大数据集,GPT-3 能完成许多令人惊讶的任务(few-shot、zero-shot)。
  • 局限:对于分布外或与训练分布冲突的任务,依然无能为力。

四、GPT-4:多模态与更强推理

1. 核心特性

  • 引入 多模态能力(GPT-4V):支持文本 + 图像输入。
  • 上下文长度扩展至 128k tokens(GPT-4 Turbo)。
  • 更强的链式推理(Chain-of-Thought)能力,减少幻觉。

2. 应用拓展

  • 支持插件、代码解释器、联网搜索。
  • 多语言处理能力显著提升。

五、GPT-5:迈向通用智能(推测)

1. 可能的技术方向

  • 多模态融合:扩展到视频、音频、3D 场景的深度理解与生成。
  • 更长上下文:可能支持百万级 tokens。
  • 持久化记忆:引入长期记忆系统,实现更深度的个性化交互。
  • 更强推理与规划:稳定的长链推理、多步任务分解与自动化执行。
  • 实时性:更接近实时联网,减少知识时效性问题。

2. 潜在应用

  • 跨模态创作(视频脚本 + 配音 + 动画生成)。
  • 高度自动化的任务代理(AI Agent)。
  • 更自然的多模态对话(语音 + 视频 + 文本混合)。

六、发展脉络总结

版本 核心变化 训练方式 数据集 代表能力
GPT-1 Transformer Decoder(去掉第二子层) 无监督 + 有监督微调 BooksCorpus 预训练 + 微调
GPT-2 Pre-LayerNorm,序列长度 1024 无监督(zero-shot) WebText Zero-shot 推理
GPT-3 大规模参数与数据 无监督(few-shot/zero-shot) 多源大规模数据 规模驱动能力
GPT-4 多模态(文本+图像),128k tokens 无监督 + 工具调用 多模态数据 多模态推理
GPT-5 多模态融合(视频/音频/3D),长期记忆 无监督 + 实时数据 更大规模多模态数据 通用智能雏形

七、结语

从 GPT-1 到 GPT-5,OpenAI 的技术路线始终围绕 Transformer 架构 展开,但每一代都在 规模、数据、多模态、推理能力 等方面不断突破。从最初的单向语言模型,到如今可能具备跨模态、长链推理和个性化记忆的通用智能雏形,GPT 系列不仅推动了自然语言处理的发展,也正在重塑人机交互的未来。


Logo

更多推荐