第一阶段:史前时代与理论基础 (2017年之前)

这个阶段的核心是技术储备,尤其是 Transformer架构 的出现。

  • 技术基础

    • 循环神经网络(RNN)和长短期记忆网络(LSTM):在Transformer之前,处理序列数据(如文本)的主流模型。但它们存在梯度消失/爆炸问题,难以处理长距离依赖。

    • 编码器-解码器架构:在机器翻译中取得成功,为后来的模型结构提供了范本。

    • 注意力机制:2014年提出,允许模型在处理某个词时“关注”输入序列中所有其他词的重要性,大大提升了模型性能。但最初的注意力是与RNN结合使用的。

  • 关键里程碑:Transformer的诞生 (2017)

    • Google的论文《Attention Is All You Need》横空出世。

    • 核心贡献:完全摒弃了RNN和CNN,仅依靠自注意力机制 来构建模型。这使得模型可以高度并行化训练,极大地提升了训练效率,并且能更好地捕捉全局依赖关系。

    • 意义:这篇论文为所有后续的大语言模型奠定了最核心的架构基础,是真正的“开山之作”。

第二阶段:预训练-微调范式的确立与“大”模型的诞生 (2018-2020)

这个阶段,研究者们发现,先用海量数据训练一个庞大的基础模型,然后再用特定领域的数据进行微调,可以取得非常好的效果。这就是“预训练-微调”范式。

  • 开创者:GPT 和 BERT (2018)

    • GPT-1 (OpenAI, 2018)

      • 架构:仅使用Transformer的解码器部分。解码器是自回归的,非常适合文本生成任务(根据上文预测下一个词)。

      • 意义:证明了通用预训练模型的有效性,通过微调可以在多种任务上取得好成绩。

    • BERT (Google, 2018)

      • 架构:仅使用Transformer的编码器部分。采用“掩码语言模型”进行训练,可以同时看到上下文信息。

      • 意义:在11项NLP任务上刷新了记录,引发了工业界和学术界的巨大轰动,彻底证明了“预训练-微调”范式的威力。

  • 规模的竞赛:模型参数急剧膨胀

    • GPT-2 (2019):参数15亿。OpenAI因其“可能被滥用”的担忧而分阶段发布,引发了广泛讨论。它展示了零样本学习的潜力,即不微调直接完成任务。

    • GPT-3 (2020):参数高达1750亿。这是一个划时代的模型。

      • 核心思想:提出了 “预训练 + 提示学习” 的新范式。其关键发现是上下文学习能力:只需在提示中给出几个例子(Few-shot Learning),模型就能理解任务并给出答案,无需更新模型参数。

      • 意义:证明了规模效应的惊人力量——当模型大到一定程度时,会涌现出小模型不具备的能力。大模型成为新的基础平台。

  • 同时期的其他重要模型

    • T5 (Google):将所有的NLP任务都统一成“文本到文本”的格式。

    • RoBERTa, ALBERT 等:对BERT架构进行了优化和改进。

第三阶段:从“理解”到“生成与对话”,AI走向普及 (2021-2022)

这一阶段的重点是让大模型变得更有用、更易用、更安全,核心突破是指令微调人类反馈强化学习

  • 指令微调:用大量包含“指令-期望回复”格式的数据集对预训练好的基础模型进行微调,让模型学会遵循人类的指令。

  • 人类反馈强化学习:通过人类对模型生成结果的排序和评价来进一步微调模型,使其输出更符合人类的价值观和偏好。

  • 关键里程碑:InstructGPT 和 ChatGPT (2022)

    • InstructGPT (2022):是GPT-3的指令微调版本,采用了RLHF技术。其回复更安全、更相关、更符合指令要求。

    • ChatGPT (2022年11月):基于InstructGPT类似的技术,但针对对话交互进行了优化。它的发布引发了全球性的AI热潮,让普通人第一次直观感受到了大模型的强大能力。

第四阶段:规模化、多模态化与生态竞争 (2023年至今)

ChatGPT之后,行业进入了百花齐放、激烈竞争的阶段。

  • 闭源与开源之路

    • 闭源代表

      • GPT-4 (2023):更强更大,支持多模态输入(图像和文本),推理能力、可靠性和安全性进一步提升。

      • Google Gemini:Google的应对之作,原生多模态设计,在多项基准测试中试图超越GPT-4。

    • 开源代表

      • LLaMA (Meta):发布了一系列从70亿到700亿参数的基础模型,虽然不开源但开放权重供研究使用,催生了繁荣的开源生态。

      • ChatGLM (智谱AI/清华)Baichuan (百川智能)Qwen (通义千问,阿里) 等:中国公司和机构推出的强大模型,形成了中文大模型生态。

  • 技术趋势

    1. 多模态:模型不再只处理文本,而是能够同时理解图像、音频、视频等。GPT-4V, Gemini是典型代表。

    2. 智能体:大模型作为“大脑”,可以调用工具(搜索引擎、计算器、API)、进行规划、执行复杂任务。

    3. 缩放定律的继续探索:模型参数还在增长,但重点转向了用更高效的方法(如混合专家模型MoE)来构建更大模型。

    4. 垂直化与小型化:出现针对特定领域(医疗、法律、编程)优化的模型,以及可以在手机等边缘设备上运行的轻量级模型。

总结:演变的核心脉络

阶段 时间 核心突破 代表模型 范式
理论基础 ~2017 注意力机制,Transformer架构 Transformer 新架构诞生
预训练范式 2018-2020 预训练-微调,规模效应显现 BERT, GPT-3 Pre-train + Fine-tune
对齐与对话 2021-2022 指令微调,人类反馈强化学习 InstructGPT, ChatGPT Pre-train + Prompt
多模态与生态 2023至今 多模态能力,AI智能体,开源爆发 GPT-4, Gemini, LLaMA AI as Agent

大模型的演变远未结束,未来将朝着更高效、更可靠、更具理解力和推理能力的方向发展,并更深地融入人类社会的各个方面。

开启新对话

Logo

更多推荐