Datawhale Happy-LLM 202509 第8次作业
架构就像一位专业的"作家",它不需要深度理解输入,而是专注于如何流畅地生成文本。正是这种专注,让它成为了当今大语言模型的基石。想象一下,如果AI模型不是"全才",而是专攻"创作"的"作家",会是什么样子?让GPT掌握了语言的生成规律,成为真正的"文本创作专家"。——当今所有大语言模型(如ChatGPT)的核心架构!模型通过看例子就能学会判断,不再需要大量训练数据。当GPT系列闭源发展时,Meta公
目录
Decoder-Only模型:从GPT到LLaMA的"文本生成大师"进化史
3.3 Decoder-Only PLM
Decoder-Only模型:从GPT到LLaMA的"文本生成大师"进化史
想象一下,如果AI模型不是"全才",而是专攻"创作"的"作家",会是什么样子?这就是Decoder-Only模型——当今所有大语言模型(如ChatGPT)的核心架构!
一、第三种选择:专注"创作"的AI作家
在我们认识了BERT(理解专家)和T5(翻译全才)之后,AI界出现了第三种选择:只保留"创作部门"的模型。
- BERT = 理解专家(只用Encoder)
- T5 = 翻译全才(Encoder+Decoder都用)
- GPT系列 = 创作大师(只用Decoder)
这种Decoder-Only架构就像一位专业的"作家",它不需要深度理解输入,而是专注于如何流畅地生成文本。正是这种专注,让它成为了当今大语言模型的基石。
二、GPT:坚持"大力出奇迹"的逆袭故事
GPT的诞生与逆袭:
- 2018年:GPT-1发布,虽然提出了"预训练-微调"的创新思路,但被同时期的BERT抢尽风头
- OpenAI的选择:坚信"模型越大越聪明",持续扩大模型规模
- 2020年:GPT-3横空出世,以1750亿参数震惊AI界,开启大模型时代
GPT的工作原理:"接龙游戏"大师
GPT的训练方式很像我们玩的"词语接龙":
- 输入:"今天天气"
- 模型预测:"很"
- 输入:"今天天气很"
- 模型预测:"好"
- 如此循环,生成完整句子
这种因果语言模型(CLM) 让GPT掌握了语言的生成规律,成为真正的"文本创作专家"。
GPT系列的进化之路:
模型 |
参数量 |
训练数据 |
特点 |
GPT-1 |
1.2亿 |
5GB |
开创者,但表现不如BERT |
GPT-2 |
15亿 |
40GB |
尝试零样本学习,初显潜力 |
GPT-3 |
1750亿 |
570GB |
实现"涌现能力",开启大模型时代 |
GPT-3的革命性贡献:Few-Shot学习
GPT-3发现了一个神奇现象:给模型几个例子,它就能学会新任务!
比如教模型情感分析:
示例1:"这部电影很棒" → 正面
示例2:"服务太差了" → 负面
示例3:"产品很好用" → 正面
问题:"这个主意真不错" → ?
模型通过看例子就能学会判断,不再需要大量训练数据。这种上下文学习(In-Context Learning) 让AI的使用变得极其简单。
三、LLaMA:开源世界的"平民英雄"
当GPT系列闭源发展时,Meta公司推出了开源的LLaMA系列,让更多人能够接触和使用大模型。
LLaMA的成长历程:
- LLaMA-1(2023年2月):开源先锋,提供4种规格(7B-65B参数)
- LLaMA-2(2023年7月):支持更长文本,引入分组查询注意力机制
- LLaMA-3(2024年4月):训练数据达到15万亿token,支持多语言
LLaMA的成功秘诀:
- 开源精神:让全球开发者都能使用和改进
- 技术优化:在保持性能的同时降低计算成本
- 持续创新:每一代都有实质性的技术提升
四、GLM:中文世界的"特色创新"
中国智谱公司推出的GLM系列在Decoder-Only基础上加入了中国特色创新:
GLM的独特之处:
- 融合思路:结合了BERT的"完形填空"和GPT的"接龙生成"
- 中文优化:专门为中文语言特点设计
- 实用导向:从ChatGLM-6B到GLM-4,持续提升实际应用能力
GLM的发展轨迹:
- ChatGLM-6B:2023年3月发布,首个开源中文大模型
- ChatGLM2-6B:支持32K长文本,性能大幅提升
- ChatGLM3-6B:在数学、推理、代码等方面达到先进水平
- GLM-4:支持128K超长文本,接近GPT-4水平
五、大模型时代的启示:专注与规模的力量
Decoder-Only模型的发展告诉我们:
- 专注产生专业:专注于文本生成这一个方向,反而成就了最强大的AI模型
- 规模带来质变:当参数达到千亿级别时,模型会出现"涌现能力"
- 开源推动进步:LLaMA等开源模型让技术更加普惠
- 创新需要坚持:GPT从默默无闻到改变世界,用了近5年时间
更多推荐
所有评论(0)