AI大模型都可以干什么——AI大模型的分类

下面从五大维度，把大模型的种类做一次系统性丰富，覆盖主流与细分类型（截至 2026 年 5 月）。

penguin_can_fly

372人浏览 · 2026-05-09 16:08:38

penguin_can_fly · 2026-05-09 16:08:38 发布

下面从技术能力、模态特性、行业垂直、部署形态、任务专精五大维度，把大模型的种类做一次系统性丰富，覆盖主流与细分类型（截至 2026 年 5 月）。

一、按核心能力层级划分（L0/L1/L2）

1. L0 通用基础模型（全能型）

特点：跨领域泛化，参数千亿级 +，海量通用数据预训练，能力覆盖对话、创作、推理、代码、多模态。
代表：
- 国际：GPT-4o/5、Claude 4.7、Gemini 3.1、Llama 4、Mistral 2.0、xAI Grok 4.2。
- 国产：文心一言 5.0、通义千问 3.6、腾讯混元、讯飞星火 X2、智谱 GLM-5.1、Kimi 2.5、DeepSeek-V4。
擅长：全场景通识任务、复杂推理、多模态交互、企业级底座。

2. L1 行业专用模型（垂直适配型）

特点：基于 L0 微调，注入行业数据与知识，合规与专业度强。
代表：
- 医疗：Med-PaLM 2、灵医智惠、医知源。
- 金融：BloombergGPT、天镜、文心金融版。
- 政务：文心政务版、盘古政务大模型。
- 工业：华为盘古 CV、工业质检模型。
- 法律：LawGPT、Claude Legal、元典智库。
擅长：行业文档处理、合规审查、专业问答、流程自动化。

3. L2 任务专精模型（单任务极致型）

特点：聚焦单一任务，精度与效率最优，体积小、成本低。
代表：
- 代码：CodeLlama、StarCoder、通义 CodeQwen。
- 长文本：Kimi 2.5（百万上下文）、Claude Long。
- 图像分割：Grounded-SAM、Mask R-CNN。
- 语音识别：Whisper V3、讯飞 ASR。
- 文案生成：Jasper、Copy.ai、豆包创作版。
擅长：单点任务高效输出、低成本部署、高并发场景。

二、按模态类型划分（单模态 / 多模态）

1. 纯文本大模型（LLM）

特点：仅处理文本，理解与生成能力强，推理与代码顶尖。
代表：GPT-3.5、Claude Sonnet、Llama 3、GLM-4、DeepSeek-R1。
擅长：写作、翻译、摘要、对话、逻辑推理、代码生成。

2. 视觉大模型（CV）

特点：处理图像 / 视频，理解、检测、分割、生成。
代表：ViT、Swin Transformer、Stable Diffusion、DALL・E 3、Imagen、盘古 CV。
擅长：图像识别、视频分析、文生图、图生文、视觉创作。

3. 语音音频大模型（Audio）

特点：语音识别、合成、翻译、情感分析。
代表：Whisper、讯飞 TTS、百度 ERNIE-Speech、Amazon Polly。
擅长：语音交互、有声书、字幕生成、语音翻译、情感播报。

4. 多模态大模型（跨模态融合）

特点：统一处理文本 / 图像 / 音频 / 视频，跨模态理解与生成。
代表：GPT-4o、Gemini 3.1、文心一言 5.0、通义千问多模态、GLM-5.1V、豆包 5.0。
擅长：图文问答、视频摘要、多模态创作、实时交互、跨模态检索。

三、按技术特性划分（推理 / 代码 / 长文本 / 世界模型）

1. 推理增强型模型

特点：数学、逻辑、复杂推理极强，思维链（CoT）优化。
代表：DeepSeek-R1、Claude Opus、GPT-4o、通义千问 3.6、Kimi 2.5。
擅长：数学证明、科学计算、逻辑谜题、复杂问题拆解。

2. 代码专用模型（Code LLM）

特点：代码生成、调试、解释、重构，支持多语言与框架。
代表：通义 CodeQwen、GLM-5.1（SWE-Bench 77.8%）、DeepSeek-Coder、Llama Code。
擅长：全栈开发、自动化测试、代码审查、技术文档生成。

3. 超长上下文模型

特点：支持 100K–2M tokens，长文档无压力。
代表：Claude 4.7（200K）、Gemini 3.1（1M+）、Kimi 2.5（1M）、文心一言 5.0（512K）。
擅长：书籍 / 论文精读、合同审查、知识库构建、长对话记忆。

4. 世界模型与具身智能

特点：物理世界建模、模拟预测、机器人控制、环境交互。
代表：Google Gemini World、Tesla Optimus、华为盘古具身模型、Meta SAM。
擅长：自动驾驶、工业机器人、虚拟仿真、环境预测、具身决策。

四、按部署形态划分（闭源 / 开源 / 边缘）

1. 闭源商用模型（API 服务）

特点：能力强、稳定、生态完善、付费调用、数据云端处理。
代表：GPT-4o、Claude 4.7、Gemini 3.1、文心一言 5.0、通义千问 3.6。
适合：快速开发、企业服务、高可用场景、无需自建算力。

2. 开源可部署模型（私有化 / 本地）

特点：免费 / 低成本、数据私有、可微调、支持国产算力。
代表：Llama 4、Mistral 2.0、通义千问开源版、GLM-5.1、DeepSeek-V4、Qwen-1.8B/7B/14B。
适合：数据安全、私有化部署、二次开发、边缘设备适配。

3. 轻量边缘模型（端侧 / 嵌入式）

特点：体积小、速度快、低功耗、手机 / 物联网设备部署。
代表：Mistral-7B、Llama 3-8B、Qwen-1.8B、Phi-3、MobileViT。
适合：手机 App、智能音箱、车载系统、工业终端、实时交互。

五、按应用场景划分（创作 / 办公 / 科研 / 教育 / 客服）

1. 内容创作模型

代表：GPT-4o、Claude、文心一言、豆包、Jasper、Midjourney、Runway。
擅长：文案、小说、诗歌、短视频脚本、海报设计、视频生成。

2. 办公自动化模型

代表：腾讯混元、文心一言、通义千问、WPS AI、Microsoft 365 Copilot。
擅长：PPT 生成、报表分析、会议纪要、邮件撰写、文档翻译、数据整理。

3. 科研学术模型

代表：Claude、Kimi 2.5、DeepSeek-R1、GPT-4o、MathGPT。
擅长：论文精读、文献综述、数据建模、公式推导、学术翻译、科研绘图。

4. 教育辅导模型

代表：讯飞星火、文心一言、通义千问、 Khanmigo、猿辅导 AI。
擅长：题库解析、知识点讲解、作文批改、语言学习、个性化教案。

5. 智能客服模型

代表：华为盘古、百度文心、阿里通义、智齿科技、网易七鱼。
擅长：多轮对话、意图识别、知识库问答、情绪安抚、工单自动处理。

六、补充：小众但重要的特殊模型

检索增强模型（RAG）：结合知识库，解决幻觉，代表：LangChain、LlamaIndex、文心 RAG。
嵌入模型（Embedding）：文本 / 图像转向量，用于检索与推荐，代表：BGE、all-MiniLM、CLIP。
重排模型（Reranking）：优化搜索结果排序，提升精准度，代表：Cross-BERT、T5-Rerank。
多智能体模型（Agent）：自主规划、工具调用、多角色协作，代表：GPT-4o Agent、GLM-5.1 Agent、AutoGPT。

北京朝阳AI社区

更多推荐

AI-Agents-01-初识智能体

本文为个人学习笔记整理，项目来源。

北京朝阳AI社区

【3d 场景生成】LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive

北京朝阳AI社区

别再只做一个 ChatDemo 了：`gijela-core-chat` 把大模型联调、知识库、图谱、附件、MCP、日志全串起来了

摘要： gijela-core-chat 是一个专为 Java 大模型项目设计的联调工作台，解决了传统开发中模型切换混乱、RAG 验证分散、日志排障困难等问题。其核心价值在于整合了 LLM 调用、知识库管理、图谱抽取、附件处理等全链路能力，提供可视化操作界面，支持同步/流式验证、会话管理、实时预览等功能。通过自研 OkHttp 工具链替代第三方框架，实现了可控的模型调用与调试闭环，显著提升了开发效