揭秘大模型:从Token到输出的四步工作流程详解!
文章主要介绍了大模型(生成式AI)与传统AI的区别,并详细解析了大模型的工作原理。当用户输入Prompt后,大模型通过四个步骤处理:1)将文本分割成Token;2)将Token向量化嵌入;3)通过多层推理调整隐藏状态值;4)进行向量计算预测输出。文章还解释了温度控制对输出结果的影响。理解这些原理有助于更好地控制大模型生成预期内容,对日常工作和AI面试都至关重要。
简介
文章主要介绍了大模型(生成式AI)与传统AI的区别,并详细解析了大模型的工作原理。当用户输入Prompt后,大模型通过四个步骤处理:1)将文本分割成Token;2)将Token向量化嵌入;3)通过多层推理调整隐藏状态值;4)进行向量计算预测输出。文章还解释了温度控制对输出结果的影响。理解这些原理有助于更好地控制大模型生成预期内容,对日常工作和AI面试都至关重要。
自2022年12月大模型发布以来,我们见证了传统AI技术到现在主流生成式AI技术的演变过程,在使用大模型让大模型按照我们的预期生成内容和任务就要懂得如何控制它,控制大模型不光要知道如何写更优的提示词,还要知道它的底层原理。不管是日常工作和AI相关的面试,这都是我们绕不开的点。
在了解大模型底层原理前,我们先来聊聊传统AI和生成式AI的区别。
1.传统AI技术
-
基于规则基于规则或特定算法,具备可解释性,有明确的input->output路径。
-
只能输出投入的数据,不能创造新内容(只能输出历史投入的内容)
简而言之开发团队明确知道AI能做什么。
2.生成式AI技术
基于大语言模型,黑箱模型不可解释,不是input一output 逻辑(不能解释原因:不是因为不知道它的原理和结果是如何出来的,而是因为我们没办法和他一样去进行计算)。
可以产出不存在的内容
简而言之开发团队知道AI如何工作,但不知道会生成什么(计算结果和过程,不知道)。
接下来说我们来说生成式AI(大模型)底层工作原理,当我们给大模型输入需求(Prompt)后,大模型会经过四个步骤处理返回给我们结果。
第一步:文本分割成Token
当我们把文本(Prompt)发送给大模型后,大模型先会按照模型预训练时的分词规则将我们的Prompt进行拆分,例如当我们给大模型输入"生成式AI是什么东西?"大模型 会拆分为“生成、式、AI、是什么、东西、?”6个Token。
第二步:嵌入——向量化
在嵌入层大模型会将已经拆分好的Token嵌入到它的Token单词表中进行随机的标号,这个标号也叫做嵌入。
这里面我们难免会有两个疑问:Token为什么要向量化?为什么要将我们的输入的Prompt拆分为Token后嵌入到预训练时Token单词表中?
先说第一个问题,确切地说Token是以向量形式存在的。至于第二个问题为什么要做嵌入,因为只有嵌入到Token预训练时的单词表中,才能多维度对比各个Token之间的相似性(向量指向之间的夹角),为后面多层推理和向量计算(最终预测)阶段提供准确的数据支撑。
以上文拆分后的”AI“为例,我们可以通过下图更直观地感受下Token的相似相对比。
第三步:多层推理(调整隐藏状态值)
在完成上面的向量嵌入后会进入推理层,推理层自注意力机制对已标完号的Token与该词所在的位置和前后(生成式AI只能看前面的)和单词之间的关联关系使用自注意力层(transformer)架构进行参数调整,层层调整,直到把这句中的Token都调整完。
注意:调的不是第一层嵌入的那个参数,那个参数嵌入后是固定的了,它调整的叫做隐藏状态值(各个token之间的关系),比如为什么那两个词在一起?为什么那三个词在一起。
第四步:向量计算(最终预测)
基于上面的步骤整完后就能得到token的整体走向趋势(规律),进而预料下一个可能Token的参数和取值,在得到可能参数范围内选用概率最大的Token作为输出,将选择的Token作为我们Prompt句子下一个Token加到句子中,然后又生成了一个新的一句话,重复上面的(二、三、四)步骤,层层计算,直到大模型计算完了后面不需要有了,非常合理了,以’。'结束。
补充:当大模型将每一个Token的概率算出来,选择具体输出那个Token的时候,我们可以限定Token选值的范围,也叫温度控制,比如(5%——10%)或者前10个里面随便选一个。
我们设定的范围越小输出结果越靠前,则输出的值更严谨和精确,这也是下轮模型计算的基础,因此从另个方面也决定了大模型的精确性和灵活性。
最后,以一张图总结下今天的内容
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
01.大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)