Datawhale Happy-LLM 202509 第8次作业

架构就像一位专业的"作家"，它不需要深度理解输入，而是专注于如何流畅地生成文本。正是这种专注，让它成为了当今大语言模型的基石。想象一下，如果AI模型不是"全才"，而是专攻"创作"的"作家"，会是什么样子？让GPT掌握了语言的生成规律，成为真正的"文本创作专家"。——当今所有大语言模型（如ChatGPT）的核心架构！模型通过看例子就能学会判断，不再需要大量训练数据。当GPT系列闭源发展时，Meta公

weixin_44811994

340人浏览 · 2025-09-27 13:08:53

weixin_44811994 · 2025-09-27 13:08:53 发布

3.3 Decoder-Only PLM

Decoder-Only模型：从GPT到LLaMA的"文本生成大师"进化史

3.3 Decoder-Only PLM

Decoder-Only模型：从GPT到LLaMA的"文本生成大师"进化史

想象一下，如果AI模型不是"全才"，而是专攻"创作"的"作家"，会是什么样子？这就是Decoder-Only模型——当今所有大语言模型（如ChatGPT）的核心架构！

一、第三种选择：专注"创作"的AI作家

在我们认识了BERT（理解专家）和T5（翻译全才）之后，AI界出现了第三种选择：只保留"创作部门"的模型。

BERT = 理解专家（只用Encoder）
T5 = 翻译全才（Encoder+Decoder都用）
GPT系列 = 创作大师（只用Decoder）

这种Decoder-Only架构就像一位专业的"作家"，它不需要深度理解输入，而是专注于如何流畅地生成文本。正是这种专注，让它成为了当今大语言模型的基石。

二、GPT：坚持"大力出奇迹"的逆袭故事

GPT的诞生与逆袭：

2018年：GPT-1发布，虽然提出了"预训练-微调"的创新思路，但被同时期的BERT抢尽风头
OpenAI的选择：坚信"模型越大越聪明"，持续扩大模型规模
2020年：GPT-3横空出世，以1750亿参数震惊AI界，开启大模型时代

GPT的工作原理："接龙游戏"大师

GPT的训练方式很像我们玩的"词语接龙"：

输入："今天天气"
模型预测："很"
输入："今天天气很"
模型预测："好"
如此循环，生成完整句子

这种因果语言模型（CLM） 让GPT掌握了语言的生成规律，成为真正的"文本创作专家"。

GPT系列的进化之路：

模型	参数量	训练数据	特点
GPT-1	1.2亿	5GB	开创者，但表现不如BERT
GPT-2	15亿	40GB	尝试零样本学习，初显潜力
GPT-3	1750亿	570GB	实现"涌现能力"，开启大模型时代

GPT-3的革命性贡献：Few-Shot学习

GPT-3发现了一个神奇现象：给模型几个例子，它就能学会新任务！

比如教模型情感分析：

示例1："这部电影很棒" → 正面

示例2："服务太差了" → 负面

示例3："产品很好用" → 正面

问题："这个主意真不错" → ?

模型通过看例子就能学会判断，不再需要大量训练数据。这种上下文学习（In-Context Learning） 让AI的使用变得极其简单。

三、LLaMA：开源世界的"平民英雄"

当GPT系列闭源发展时，Meta公司推出了开源的LLaMA系列，让更多人能够接触和使用大模型。

LLaMA的成长历程：

LLaMA-1（2023年2月）：开源先锋，提供4种规格（7B-65B参数）
LLaMA-2（2023年7月）：支持更长文本，引入分组查询注意力机制
LLaMA-3（2024年4月）：训练数据达到15万亿token，支持多语言

LLaMA的成功秘诀：

开源精神：让全球开发者都能使用和改进
技术优化：在保持性能的同时降低计算成本
持续创新：每一代都有实质性的技术提升

四、GLM：中文世界的"特色创新"

中国智谱公司推出的GLM系列在Decoder-Only基础上加入了中国特色创新：

GLM的独特之处：

融合思路：结合了BERT的"完形填空"和GPT的"接龙生成"
中文优化：专门为中文语言特点设计
实用导向：从ChatGLM-6B到GLM-4，持续提升实际应用能力

GLM的发展轨迹：

ChatGLM-6B：2023年3月发布，首个开源中文大模型
ChatGLM2-6B：支持32K长文本，性能大幅提升
ChatGLM3-6B：在数学、推理、代码等方面达到先进水平
GLM-4：支持128K超长文本，接近GPT-4水平

五、大模型时代的启示：专注与规模的力量

Decoder-Only模型的发展告诉我们：

专注产生专业：专注于文本生成这一个方向，反而成就了最强大的AI模型
规模带来质变：当参数达到千亿级别时，模型会出现"涌现能力"
开源推动进步：LLaMA等开源模型让技术更加普惠
创新需要坚持：GPT从默默无闻到改变世界，用了近5年时间

北京朝阳AI社区

更多推荐

基于雾计算和Q学习的公交信号优先控制策略研究【附代码】

北京朝阳AI社区

CentOS 10（CentOS Stream 10）部署 Zabbix 7 详细步骤文档

指导运维人员完成 Zabbix 7 在 CentOS Stream 10 上的部署与基础配置，覆盖环境搭建、服务配置、Web 初始化及监控验证全流程，适用于中小企业服务器集群监控场景。LogFile=/var/log/zabbix/zabbix_server.log# 日志路径保持默认。# 开放Zabbix所需端口（Web端口80、Server端口10051、Agent端口10050）memory

北京朝阳AI社区

20 秒根因定位：BOSS 直聘基于 NebulaGraph 图数据库构建智能运维

作者万佳飞，SRE 工程师，AIOps 经验丰富，擅长根因定位，目前在做 AI Agent 提效，本文源万佳飞老师在北京上的分享。导读：在数字化服务日益成为业务核心竞争力的今天，系统的稳定性直接关乎用户体验与企业声誉。BOSS 直聘选择以 NebulaGraph 高性能分布式图数据库为核心，构建了创新的异常调用分析与根因定位平台，实现了运维效率与稳定性的质的飞跃。本文首发于，更多产品资讯请访问。