AI大模型都可以干什么——AI大模型的分类
下面从五大维度,把大模型的种类做一次系统性丰富,覆盖主流与细分类型(截至 2026 年 5 月)。
·
下面从技术能力、模态特性、行业垂直、部署形态、任务专精五大维度,把大模型的种类做一次系统性丰富,覆盖主流与细分类型(截至 2026 年 5 月)。
一、按核心能力层级划分(L0/L1/L2)
1. L0 通用基础模型(全能型)
- 特点:跨领域泛化,参数千亿级 +,海量通用数据预训练,能力覆盖对话、创作、推理、代码、多模态。
- 代表:
- 国际:GPT-4o/5、Claude 4.7、Gemini 3.1、Llama 4、Mistral 2.0、xAI Grok 4.2。
- 国产:文心一言 5.0、通义千问 3.6、腾讯混元、讯飞星火 X2、智谱 GLM-5.1、Kimi 2.5、DeepSeek-V4。
- 擅长:全场景通识任务、复杂推理、多模态交互、企业级底座。
2. L1 行业专用模型(垂直适配型)
- 特点:基于 L0 微调,注入行业数据与知识,合规与专业度强。
- 代表:
- 医疗:Med-PaLM 2、灵医智惠、医知源。
- 金融:BloombergGPT、天镜、文心金融版。
- 政务:文心政务版、盘古政务大模型。
- 工业:华为盘古 CV、工业质检模型。
- 法律:LawGPT、Claude Legal、元典智库。
- 擅长:行业文档处理、合规审查、专业问答、流程自动化。
3. L2 任务专精模型(单任务极致型)
- 特点:聚焦单一任务,精度与效率最优,体积小、成本低。
- 代表:
- 代码:CodeLlama、StarCoder、通义 CodeQwen。
- 长文本:Kimi 2.5(百万上下文)、Claude Long。
- 图像分割:Grounded-SAM、Mask R-CNN。
- 语音识别:Whisper V3、讯飞 ASR。
- 文案生成:Jasper、Copy.ai、豆包创作版。
- 擅长:单点任务高效输出、低成本部署、高并发场景。
二、按模态类型划分(单模态 / 多模态)
1. 纯文本大模型(LLM)
- 特点:仅处理文本,理解与生成能力强,推理与代码顶尖。
- 代表:GPT-3.5、Claude Sonnet、Llama 3、GLM-4、DeepSeek-R1。
- 擅长:写作、翻译、摘要、对话、逻辑推理、代码生成。
2. 视觉大模型(CV)
- 特点:处理图像 / 视频,理解、检测、分割、生成。
- 代表:ViT、Swin Transformer、Stable Diffusion、DALL・E 3、Imagen、盘古 CV。
- 擅长:图像识别、视频分析、文生图、图生文、视觉创作。
3. 语音音频大模型(Audio)
- 特点:语音识别、合成、翻译、情感分析。
- 代表:Whisper、讯飞 TTS、百度 ERNIE-Speech、Amazon Polly。
- 擅长:语音交互、有声书、字幕生成、语音翻译、情感播报。
4. 多模态大模型(跨模态融合)
- 特点:统一处理文本 / 图像 / 音频 / 视频,跨模态理解与生成。
- 代表:GPT-4o、Gemini 3.1、文心一言 5.0、通义千问多模态、GLM-5.1V、豆包 5.0。
- 擅长:图文问答、视频摘要、多模态创作、实时交互、跨模态检索。
三、按技术特性划分(推理 / 代码 / 长文本 / 世界模型)
1. 推理增强型模型
- 特点:数学、逻辑、复杂推理极强,思维链(CoT)优化。
- 代表:DeepSeek-R1、Claude Opus、GPT-4o、通义千问 3.6、Kimi 2.5。
- 擅长:数学证明、科学计算、逻辑谜题、复杂问题拆解。
2. 代码专用模型(Code LLM)
- 特点:代码生成、调试、解释、重构,支持多语言与框架。
- 代表:通义 CodeQwen、GLM-5.1(SWE-Bench 77.8%)、DeepSeek-Coder、Llama Code。
- 擅长:全栈开发、自动化测试、代码审查、技术文档生成。
3. 超长上下文模型
- 特点:支持 100K–2M tokens,长文档无压力。
- 代表:Claude 4.7(200K)、Gemini 3.1(1M+)、Kimi 2.5(1M)、文心一言 5.0(512K)。
- 擅长:书籍 / 论文精读、合同审查、知识库构建、长对话记忆。
4. 世界模型与具身智能
- 特点:物理世界建模、模拟预测、机器人控制、环境交互。
- 代表:Google Gemini World、Tesla Optimus、华为盘古具身模型、Meta SAM。
- 擅长:自动驾驶、工业机器人、虚拟仿真、环境预测、具身决策。
四、按部署形态划分(闭源 / 开源 / 边缘)
1. 闭源商用模型(API 服务)
- 特点:能力强、稳定、生态完善、付费调用、数据云端处理。
- 代表:GPT-4o、Claude 4.7、Gemini 3.1、文心一言 5.0、通义千问 3.6。
- 适合:快速开发、企业服务、高可用场景、无需自建算力。
2. 开源可部署模型(私有化 / 本地)
- 特点:免费 / 低成本、数据私有、可微调、支持国产算力。
- 代表:Llama 4、Mistral 2.0、通义千问开源版、GLM-5.1、DeepSeek-V4、Qwen-1.8B/7B/14B。
- 适合:数据安全、私有化部署、二次开发、边缘设备适配。
3. 轻量边缘模型(端侧 / 嵌入式)
- 特点:体积小、速度快、低功耗、手机 / 物联网设备部署。
- 代表:Mistral-7B、Llama 3-8B、Qwen-1.8B、Phi-3、MobileViT。
- 适合:手机 App、智能音箱、车载系统、工业终端、实时交互。
五、按应用场景划分(创作 / 办公 / 科研 / 教育 / 客服)
1. 内容创作模型
- 代表:GPT-4o、Claude、文心一言、豆包、Jasper、Midjourney、Runway。
- 擅长:文案、小说、诗歌、短视频脚本、海报设计、视频生成。
2. 办公自动化模型
- 代表:腾讯混元、文心一言、通义千问、WPS AI、Microsoft 365 Copilot。
- 擅长:PPT 生成、报表分析、会议纪要、邮件撰写、文档翻译、数据整理。
3. 科研学术模型
- 代表:Claude、Kimi 2.5、DeepSeek-R1、GPT-4o、MathGPT。
- 擅长:论文精读、文献综述、数据建模、公式推导、学术翻译、科研绘图。
4. 教育辅导模型
- 代表:讯飞星火、文心一言、通义千问、 Khanmigo、猿辅导 AI。
- 擅长:题库解析、知识点讲解、作文批改、语言学习、个性化教案。
5. 智能客服模型
- 代表:华为盘古、百度文心、阿里通义、智齿科技、网易七鱼。
- 擅长:多轮对话、意图识别、知识库问答、情绪安抚、工单自动处理。
六、补充:小众但重要的特殊模型
- 检索增强模型(RAG):结合知识库,解决幻觉,代表:LangChain、LlamaIndex、文心 RAG。
- 嵌入模型(Embedding):文本 / 图像转向量,用于检索与推荐,代表:BGE、all-MiniLM、CLIP。
- 重排模型(Reranking):优化搜索结果排序,提升精准度,代表:Cross-BERT、T5-Rerank。
- 多智能体模型(Agent):自主规划、工具调用、多角色协作,代表:GPT-4o Agent、GLM-5.1 Agent、AutoGPT。
更多推荐

所有评论(0)