AI大模型相关基础知识

一种基于深度学习的人工智能模型，通过在海量文本数据上进行训练，学习语言的模式、结构和语义，能够生成自然流畅的文本，回答各种问题。豆包、DeepSeek - R1、ChatGPT 都基于此类模型构建。

摸鱼—箜絔

647人浏览 · 2025-09-25 16:01:07

摸鱼—箜絔 · 2025-09-25 16:01:07 发布

大语言模型（LLMs, Large Language Models）

概念

著名的大语言模型

模型名称	开发公司	类型	主要特点	典型应用
GPT系列	OpenAI	闭源	技术领先，多模态能力强，推理性能突出	ChatGPT、Copilot、高级对话助手
Gemini	Google	闭源	多模态原生设计，与Google生态深度集成	Google Workspace、Bard、搜索增强
Claude	Anthropic	闭源	安全性高，上下文窗口长，逻辑推理强	法律分析、长文档处理、安全敏感场景
Llama系列	Meta	开源	开源社区活跃，版本多样，易于微调	学术研究、企业定制、开发者工具
豆包	字节跳动	闭源	成本优势明显，多模态能力完善	字节系应用、内容创作、企业服务
腾讯混元	腾讯	闭源	微信生态集成，办公场景优化	微信助手、腾讯文档、会议纪要
文心一言	百度	闭源	中文理解深，搜索数据支撑，知识库丰富	百度搜索、内容创作、智能客服
通义千问	阿里巴巴	开源/闭源	电商场景优化，多语言能力强	阿里云、跨境电商、企业解决方案
智谱GLM	智谱AI	开源/闭源	双语优化，代码能力突出	学术研究、代码开发、智能对话
月之暗面Kimi	月之暗面	闭源	超长上下文处理能力突出	长文档分析、学术研究、资料整理
零一万物Yi	零一万物	开源	多语言支持好，数学推理强	国际业务、教育应用、推理任务
讯飞星火	科大讯飞	闭源	语音交互能力强，教育场景优化	智能硬件、教育辅导、语音助手

但是豆包不完全等同于一般意义上的 AI 智能体应用，准确来说，豆包既是基于大语言模型的 AI 智能助手，也为用户提供了创建和使用各种 AI 智能体的平台。

腾讯元宝 APP 是基于腾讯混元大模型开发的 C 端 AI 助手应用，具有微信生态集成、办公场景优化等特点。

主流的大模型开发平台

平台名称	所属公司	平台特点	应用场景
百度千帆大模型平台	百度	面向企业开发者，提供文心大模型及第三方开源大模型；具备AI开发工具与整套开发环境，支持数据管理、模型SFT及推理服务云端部署等一站式定制服务	适用于多种企业级AI应用开发，如智能客服、内容生成等
阿里云百炼平台	阿里巴巴	集成通义千问、Llama、ChatGLM等主流模型，开放40余款MCP服务，可快速搭建智能体	可应用于图像编辑、金融分析、数字人交互等多种场景
得助大模型平台	中关村科金	以“平台 + 应用 + 服务”三级引擎战略为核心，通过数据工厂、算力工厂、模型工厂、智能体工厂的产品矩阵，构建从算力到应用的完整闭环	服务于金融、央国企等多个领域，满足各行业特定的大模型应用需求
火山方舟	字节跳动	面向企业提供模型精调、评测、推理、知识库集成、多模态理解能力拓展等全方位服务，优化推理性能和并发保障	助力企业在多种业务场景中利用大模型能力，如智能营销、智能办公等
智谱AI开放平台	智谱	基于GLM系列大模型的一站式大模型开发平台，提供模型微调、部署、评测，以及知识库、搜索MCP及智能体开发等全链路服务，具有高效率、易上手特点	适用于各类基于GLM模型的开发场景，如智能对话、知识检索等
科大讯飞大模型定制训练平台	科大讯飞	为开发者提供定制化的大模型解决方案，支持星火及第三方开源大模型定制训练，提供全流程开发工具链	满足开发者在不同领域对大模型进行定制化训练的需求，如教育、医疗等领域的特定应用

AI应用开发框架

对比项	Spring AI	LangChain4j
定义与背景	Spring AI是基于Spring Boot框架的AI应用开发框架，旨在让Java开发者借助Spring生态的优势，轻松将AI功能集成到企业级应用中	LangChain4j是Python版LangChain在Java语言上的实现，为Java开发者提供一套构建基于大语言模型应用的工具和方法
所属组织	VMware公司下Spring官方团队开发	由社区开发者发起并维护
设计理念	遵循Spring “约定大于配置” 的理念，强调与Spring生态的深度融合，利用Spring的依赖注入、AOP等特性简化AI应用开发	注重灵活性、模块化和跨框架兼容性，旨在为开发者提供高度可定制化的组件来搭建复杂的AI工作流
模型支持	通过统一的`ModelProvider`接口支持多种主流模型，如OpenAI GPT系列、Hugging Face开源模型、阿里云百炼模型等	支持众多商业模型（如OpenAI、Anthropic、Azure OpenAI）、开源模型（如LLaMA、Falcon、Vicuna）以及多模态模型（如Google Gemini、通义千问等），模型支持范围更为广泛
提示工程	提供基于模板的提示工程支持，借助`PromptTemplate`类实现参数化提示生成，方便在不同场景下复用和调整提示	不仅支持基础的提示模板，还能进行复杂的提示链编排，将多个提示步骤串联成工作流，实现更精细和灵活的提示控制
工具集成	与Spring生态中的工具集成良好，但对于外部工具的函数调用支持，需要额外配置和开发	提供`ToolProvider`机制，对外部工具集成更为灵活，可轻松调用多个外部服务（如搜索引擎、数据库查询工具等），方便构建多功能的AI应用
记忆功能	需手动实现记忆功能，可借助Spring Data等模块实现数据持久化来管理对话记忆	内置记忆支持，能更便捷地管理和复用对话历史，为多轮对话提供更好的上下文理解
生态集成	与Spring家族的其他组件，如Spring Data、Spring Integration、Spring Cloud等无缝集成，在Spring Boot项目中可自然融入。同时适配主流云平台，支持容器化部署	社区贡献了丰富的扩展组件，如`langchain4j - vectorstore`等，支持跨语言协作，与不同技术栈的整合度较高
性能与资源消耗	相对轻量级，通过连接池管理、异步处理、结果缓存等优化手段，减少资源消耗，适合企业级应用的并发处理场景	由于功能丰富，在处理复杂任务时可能占用更多内存，链式调用也可能带来少量性能开销，并发处理时需额外考虑线程安全
学习成本	对于熟悉Spring框架的开发者而言，学习成本较低，开发模式和配置方式与Spring项目相似	不依赖特定框架知识，但开发者需掌握更多AI原生概念，如大语言模型原理、向量数据库与检索增强生成原理等，整体学习成本相对较高
适用场景	适合已采用Spring框架的企业进行AI功能拓展，如金融、医疗、电商等领域的智能客服、智能报表生成、风险预测等场景	适用于各种需要高度定制化和复杂AI工作流的场景，无论是快速原型开发、研究实验，还是构建生产级的智能聊天机器人、个性化内容生成系统等

AI模型

AI模型分类

按模态分类

类别	描述	代表模型
单模态模型	仅处理单一类型的数据	早期的GPT - 3
多模态模型	能够处理多种类型的信息	文本＋图像：GPT - 4V、Gemini、Claude 3 文本+音频＋视频：GPT - 40

按开源性分类

类别	描述	代表模型	特点
闭源模型	不公开模型权重和训练方法	GPT - 4、Claude、Gemini	通常通过API访问，付费使用
开源模型	公开模型权重，允许下载和自行部署	Llama系列、Mistral、Falcon	可以本地部署，自由调整，但通常性能略逊于同等规模闭源模型

按规模分类

类别	描述	代表模型	特点
超大规模模型	参数量在数千亿到数万亿	GPT - 4(1.76T 参数)	能力强大，但需要大量计算资源
中小规模模型	参数量在几十亿到几百亿	Llama 3(70B 参数)、Mistral 7B	能在较普通的硬件上运行，适合特定任务的精调

按用途分类

类别	描述	代表模型
通用模型	能处理广泛的任务	GPT - 4、Claude 3、Gemini
特定领域模型	针对特定领域优化	医疗：Med - PaLM 2 代码：CodeLlama、StarCoder 科学：Galactica

AI大模型接入

使用大模型的两种途径

使用途径	优点	缺点
云服务	- 提供纯净大模型能力与构建应用（智能体）工具 - 按需付费，无需大量前期基础设施投入 - 随时可用，维护成本低 - 自动更新到最新版模型 - 通常具备更完善安全措施与合规保障	- 数据传输至云端，存在数据隐私与安全风险 - 依赖网络，网络不稳定或中断影响使用 - 大规模使用时，成本可能较高 - 模型定制和修改权限受限
自部署	- 完全掌控数据流，数据隐私保障程度高 - 可依特定需求微调和定制模型 - 无网络延迟，适合对响应速度要求严格的场景 - 适合企业级应用和对数据安全要求严格的场景	- 一次性成本高，需专业技术团队维护 - 硬件资源扩展性可能受限 - 部署过程复杂，技术门槛高，可能面临兼容性问题

接入大模型的三种方式

接入方式	描述	优点	缺点	举例
AI应用平台接入	通过专门的AI应用平台接入大模型，平台集成多种大模型，并提供可视化操作界面、管理工具及辅助功能，无需复杂编程	低技术门槛，非技术人员易上手；功能丰富，集成数据预处理、模型评估等；提供应用模板，加速开发进程	定制性有限，难以满足复杂独特需求；依赖平台稳定性，平台故障影响使用；可能产生较高使用成本	如阿里云的AI开发平台PAI，企业用户可通过可视化界面快速选择大模型，配置参数进行文本生成、图像识别等应用开发，无需深入了解模型技术细节
AI软件客户端接入	下载并安装特定的AI软件客户端来接入大模型，客户端具备特定功能与交互界面	部分功能可离线使用，降低网络依赖；能提供个性化交互体验，满足特定用户偏好；本地处理数据，一定程度保障数据隐私	客户端更新不及时，难以及时获取模型最新特性；占用本地设备存储空间，对设备性能有要求；跨平台使用可能存在兼容性问题	如Midjourney客户端，用户在本地通过客户端输入文本指令生成高质量图片，享受个性化的图像生成体验，在网络不佳时也能进行部分操作
程序接入	在自主开发的程序中，利用API或SDK等方式接入大模型，将其功能集成到自身业务系统中	高度定制化，可根据业务需求灵活整合模型功能；能与现有系统无缝对接，提升整体业务效能；可针对业务场景优化性能	技术门槛高，要求开发人员具备专业的编程和AI知识；开发周期长，涉及多环节开发与调试；维护成本高，需关注模型与程序的更新适配	开发智能客服系统时，开发团队使用OpenAI的API，在自有客服程序中实现智能问答功能，根据业务数据对回复进行定制优化，为用户提供精准服务

程序调用AI大模型

接入方式	原理	优点	缺点
SDK接入	大模型官方提供SDK，封装底层复杂交互逻辑，为开发者提供简洁易用编程接口，实现快速集成	上手容易，降低开发难度，缩短开发周期功能丰富全面，涵盖模型各类功能调用官方支持与更新及时，保障稳定性与新功能获取配套文档和示例完备，方便学习使用	对特定SDK依赖强，更换模型或版本升级时可能出现兼容性问题不同SDK设计差异大，学习成本因SDK而异部分SDK可能限制使用场景或收费较高
HTTP接入	通过HTTP协议向大模型提供的REST API发送请求，传递参数并接收响应数据，实现模型调用	通用性强，不依赖特定开发框架或工具，只要能发起HTTP请求的环境都可使用灵活性高，可根据需求定制请求内容和处理响应数据便于跨平台、跨语言交互，适用于多种应用场景	开发工作量大，需自行处理HTTP请求细节，如构建请求URL、设置请求头、处理响应状态码等安全性要求高，需妥善处理API密钥等敏感信息，防止泄露性能依赖网络环境，网络不稳定时可能影响响应速度和调用成功率
Spring AI接入	基于Spring生态，利用Spring的依赖注入、AOP等特性，提供统一抽象层和便捷配置方式接入大模型	与Spring项目无缝集成，Spring开发者上手快，可复用Spring生态优势提供多种内置功能，如对话记忆、结构化输出、自定义Advisor等，简化AI应用开发具备良好扩展性，方便根据业务需求定制和扩展功能	局限于Spring框架项目，非Spring项目无法直接使用对Spring框架不熟悉的开发者学习成本较高依赖Spring版本兼容性，升级Spring或相关依赖时可能出现问题
LangChain4j接入	作为专注LLM应用开发的Java框架，提供丰富组件用于构建与大模型交互逻辑，如提示模板、记忆模块、工具调用等	专注LLM应用开发，提供全面且专业的组件，便于构建复杂AI应用灵活性和可定制性强，可根据业务需求灵活组合和定制组件支持多种大模型，便于在不同模型间切换	学习曲线较陡，需掌握框架独特概念和使用方法相比其他简单接入方式，引入的依赖较多，可能增加项目复杂度社区规模相对较小，遇到问题时获取支持可能不如大型框架方便

深圳城市开发者社区

一座年轻的奋斗人之城，一个温馨的开发者之家。在这里，代码改变人生，开发创造未来！

更多推荐

程序员必看：35岁失业后如何用AI工具实现职业重生，收藏这篇干货~！

深圳城市开发者社区

Dify 概述与安装

深圳城市开发者社区

毕设成品 stm32与深度学习口罩佩戴检测系统(源码+硬件+论文)

本文介绍了一个基于STM32与深度学习的口罩佩戴检测系统，该系统通过PC端摄像头实时检测人脸口罩佩戴情况，并将结果通过WiFi传输至STM32控制器进行显示和报警。系统硬件包括STM32开发板、蜂鸣器、WiFi模块和液晶屏。软件部分采用深度学习模型训练（准确率达97%），结合TCP通信实现上下位机交互。系统能准确识别佩戴口罩、未佩戴及不正确佩戴三种状态，并触发相应报警功能。该项目创新性地结合嵌入式