目录

3.3 Decoder-Only PLM

Decoder-Only模型:从GPT到LLaMA的"文本生成大师"进化史

一、第三种选择:专注"创作"的AI作家

二、GPT:坚持"大力出奇迹"的逆袭故事

三、LLaMA:开源世界的"平民英雄"

四、GLM:中文世界的"特色创新"

五、大模型时代的启示:专注与规模的力量


3.3 Decoder-Only PLM

Decoder-Only模型:从GPT到LLaMA的"文本生成大师"进化史

想象一下,如果AI模型不是"全才",而是专攻"创作"的"作家",会是什么样子?这就是Decoder-Only模型——当今所有大语言模型(如ChatGPT)的核心架构!

一、第三种选择:专注"创作"的AI作家

在我们认识了BERT(理解专家)和T5(翻译全才)之后,AI界出现了第三种选择:只保留"创作部门"的模型

  • BERT = 理解专家(只用Encoder)
  • T5 = 翻译全才(Encoder+Decoder都用)
  • GPT系列 = 创作大师(只用Decoder)

这种Decoder-Only架构就像一位专业的"作家",它不需要深度理解输入,而是专注于如何流畅地生成文本。正是这种专注,让它成为了当今大语言模型的基石。

二、GPT:坚持"大力出奇迹"的逆袭故事

GPT的诞生与逆袭:

  • 2018:GPT-1发布,虽然提出了"预训练-微调"的创新思路,但被同时期的BERT抢尽风头
  • OpenAI的选择:坚信"模型越大越聪明",持续扩大模型规模
  • 2020:GPT-3横空出世,以1750亿参数震惊AI界,开启大模型时代

GPT的工作原理:"接龙游戏"大师

GPT的训练方式很像我们玩的"词语接龙":

  • 输入:"今天天气"
  • 模型预测:"很"
  • 输入:"今天天气很"
  • 模型预测:"好"
  • 如此循环,生成完整句子

这种因果语言模型(CLM) 让GPT掌握了语言的生成规律,成为真正的"文本创作专家"。

GPT系列的进化之路:

模型

参数量

训练数据

特点

GPT-1

1.2亿

5GB

开创者,但表现不如BERT

GPT-2

15亿

40GB

尝试零样本学习,初显潜力

GPT-3

1750亿

570GB

实现"涌现能力",开启大模型时代

GPT-3的革命性贡献:Few-Shot学习

GPT-3发现了一个神奇现象:给模型几个例子,它就能学会新任务

比如教模型情感分析:

示例1:"这部电影很棒" → 正面
示例2:"服务太差了" → 负面  
示例3:"产品很好用" → 正面
问题:"这个主意真不错" → ?

模型通过看例子就能学会判断,不再需要大量训练数据。这种上下文学习(In-Context Learning) 让AI的使用变得极其简单。

三、LLaMA:开源世界的"平民英雄"

当GPT系列闭源发展时,Meta公司推出了开源的LLaMA系列,让更多人能够接触和使用大模型。

LLaMA的成长历程:

  1. LLaMA-1(2023年2月):开源先锋,提供4种规格(7B-65B参数)
  2. LLaMA-2(2023年7月):支持更长文本,引入分组查询注意力机制
  3. LLaMA-3(2024年4月):训练数据达到15万亿token,支持多语言

LLaMA的成功秘诀:

  • 开源精神:让全球开发者都能使用和改进
  • 技术优化:在保持性能的同时降低计算成本
  • 持续创新:每一代都有实质性的技术提升
四、GLM:中文世界的"特色创新"

中国智谱公司推出的GLM系列在Decoder-Only基础上加入了中国特色创新:

GLM的独特之处:

  1. 融合思路:结合了BERT的"完形填空"和GPT的"接龙生成"
  2. 中文优化:专门为中文语言特点设计
  3. 实用导向:从ChatGLM-6B到GLM-4,持续提升实际应用能力

GLM的发展轨迹:

  • ChatGLM-6B:2023年3月发布,首个开源中文大模型
  • ChatGLM2-6B:支持32K长文本,性能大幅提升
  • ChatGLM3-6B:在数学、推理、代码等方面达到先进水平
  • GLM-4:支持128K超长文本,接近GPT-4水平
五、大模型时代的启示:专注与规模的力量

Decoder-Only模型的发展告诉我们:

  1. 专注产生专业:专注于文本生成这一个方向,反而成就了最强大的AI模型
  2. 规模带来质变:当参数达到千亿级别时,模型会出现"涌现能力"
  3. 开源推动进步:LLaMA等开源模型让技术更加普惠
  4. 创新需要坚持:GPT从默默无闻到改变世界,用了近5年时间

Logo

更多推荐