大模型(Large Model / Foundation Model)

一句话定义

参数规模巨大、在海量无标注 / 弱标注数据上自监督预训练、能直接适配大量下游任务的通用人工智能模型。


一、大模型的 3 个核心特点(面试必背)

  1. 参数规模极大

    • 通常亿级、十亿、百亿、千亿参数
    • 参数越多,模型记忆能力、理解能力、泛化能力越强
  2. 数据量极大 + 自监督学习

    • 海量文本、图像、语音等无标注数据训练
    • 不靠人工打标签,自己从数据里学规律
    • 学到语言规律、世界知识、逻辑、常识
  3. 通用性极强(一模型多用)

    • 不用为每个任务单独训练
    • 能做:对话、翻译、写代码、总结、推理、创作、画图…
    • 给个 ** 提示(Prompt)** 就能直接用

二、大模型和传统小模型的区别(高频对比)

传统小模型 大模型
数据 少量标注数据 海量无标注数据
训练 监督学习,任务专用 自监督预训练
能力 单一任务(分类、识别) 通用能力,零样本 / 少样本
用法 训练→部署 预训练→微调→提示词
代表 CNN、SVM、小 Transformer GPT、文心一言、Llama

一句话记:小模型是 “专科生”,大模型是 “全才通才”。


三、大模型的关键技术(复试加分)

  1. Transformer 架构大模型的基础骨架,靠自注意力机制建模长距离依赖。

  2. 自监督预训练

    • 给一句话遮一部分,让模型猜
    • 预测下一个词(GPT 模式)不用人工标签,就能学到语言和知识。
  3. 上下文学习(In-Context Learning)给几个例子,不用训练、不用改参数,直接学会新任务。

  4. 指令微调(Instruction Tuning)用各种任务指令再训练一遍,让模型听懂人话。


四、大模型能干嘛?

  • 自然语言理解、生成、对话、总结
  • 代码生成、数学推理
  • 多模态:看图说话、文生图
  • 作为基座,快速做各种 AI 应用

五、复试满分口述版(直接背)

“大模型是指参数规模巨大、基于 Transformer 架构、在海量无标注数据上通过自监督学习预训练出来的通用基础模型。它具有强泛化、强理解、强通用的特点,一个模型就能适配多种任务。和传统小模型相比,大模型不再需要大量标注数据和单独训练,通过提示词或少量微调就能使用,是当前人工智能的主流方向。”


MoE(混合专家模型):大模型的 “智能分工” 核心

MoE(Mixture of Experts,混合专家模型)是一种稀疏激活的大模型架构,核心是把大模型拆成多个 “专精领域” 的独立子网络(专家),再用一个 “调度器”(门控网络)按需分配任务,只激活最相关的少数专家,实现 “高总参数量、低实际计算量” 的高效推理。

一、核心组件(面试必背 3 要素)

组件 作用 通俗比喻
专家(Experts) 多个独立的前馈网络(FFN),每个专家专精一类数据 / 任务,参数互不共享 专科医生,比如 “内科专家”“外科专家”,只处理自己擅长的病
门控网络(Gating/Router) 接收输入特征,给每个专家打分,选 Top-K 个(通常 K=2)激活,是核心 “调度器” 分诊台,根据病情分配给对应专科医生,不找全员
稀疏激活 每个输入只激活少数专家,未激活的专家 “休眠”,不耗算力 看病只找 2 个医生,其他医生休息,不参与无效计算

二、工作流程(一句话记:输入→门控选专家→专家并行算→结果加权合)

  1. 输入数据(如 token)进入门控网络,门控计算每个专家的适配度分数;
  2. 选择分数最高的 K 个专家(比如 Top-2)激活,被激活的专家并行处理输入;
  3. 各专家输出结果,按门控分数加权求和,得到最终输出;
  4. 未选中的专家全程不参与计算,大幅节省算力。

三、和传统稠密模型的核心区别

对比维度 传统稠密模型 MoE 混合专家模型
激活方式 全量激活,所有参数参与计算 稀疏激活,仅激活 Top-K 专家
总参数量 参数量越大,计算量越高(线性增长) 总参数量可扩展至万亿级,计算量不随参数翻倍
效率成本 模型越大越慢、越贵,算力浪费严重 高参数 + 低计算,训练 / 推理速度更快、成本更低
典型案例 LLaMA-1/2、GPT-3(早期版本) Mixtral-8x7B、GPT-4(部分模块)、Switch Transformer

四、核心优势(复试 / 面试加分点)

  1. 高效扩展:轻松搭建万亿参数模型,不用像稠密模型那样 “堆参数 = 堆算力”;
  2. 降本提速:单条输入只算少数专家,推理速度、吞吐量提升,成本降低 50% 以上;
  3. 专业分工:专家可专精不同领域(如代码、数学、对话),整体能力更均衡;
  4. 灵活适配:支持共享专家(处理通用数据)+ 专属专家(处理细分数据),实用性强。

五、复试 / 面试口述版(直接背)

“MoE(混合专家模型)是一种稀疏激活的大模型架构,核心是将传统单一生成的稠密网络,拆分为多个独立的‘专家子网络’和一个‘门控调度网络’。每个专家专精一类任务或数据模式,门控网络根据输入特征动态选择 Top-K 个专家激活,仅让少数专家参与计算。它的关键是稀疏激活,在保持总参数量巨大的同时,大幅降低单条样本的推理计算量,兼顾模型容量和效率。相比传统稠密模型,MoE 能以更低成本实现万亿参数级模型,是当前大模型轻量化、高性能扩展的主流技术,典型代表有 Mixtral-8x7B、Switch Transformer 等。”

一、GPT 是什么?

GPT 全称:Generative Pre-trained Transformer生成式预训练 Transformer 模型

它有三个特点:

  1. 基于 Transformer 架构
  2. 只用 Decoder 结构(自回归)
  3. 从左到右预测下一个词来生成文本

二、为什么说 GPT 是大模型?

因为它满足大模型的所有条件:

  • 参数巨大(从 GPT-1 亿 → GPT-3 1750 亿 → GPT-4 更大)
  • 海量无标注数据预训练
  • 通用能力极强
  • 能做上下文学习、零样本 / 少样本学习

所以:GPT 是目前世界上最典型、最成功的大模型。


三、大模型 ≠ 只有 GPT

大模型是一个大类,包括:

  • GPT 系列(OpenAI)
  • Llama 系列(Meta)
  • 文心一言、通义千问、混元、星火
  • Claude、Gemini

它们都是大模型,只是架构、训练方式不一样。


四、超简面试口述版(直接背)

“GPT 是 OpenAI 提出的生成式预训练 Transformer 模型,是目前最典型、最成功的大模型之一。它通过自回归预测下一个词的方式预训练,具备强大的通用理解、生成和推理能力。大模型是一个更广泛的概念,GPT 只是其中最具代表性的一类。”

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐