大模型中的embedding到底是什么含义?Embedding技术详解与代码实践!
Embedding是机器学习中将高维离散数据转化为低维连续向量的核心技术,使大模型能捕捉语义关联。本文从token开始,解释了embedding如何替代One-Hot编码,降低维度并保留语义信息。通过BERT和Word2Vec等模型实现embedding,介绍了编码器、解码器和自编码器概念,帮助理解Skip-Gram和CBOW工作原理。掌握embedding技术是理解大模型工作机制的关键一步。
在机器学习领域中,Embedding(嵌入)操作是模型理解输入信息的核心步骤。其核心作用在于将高维离散的符号化数据(如文字、图像像素等)转化为低维连续的向量表示,使模型能够通过数学计算捕捉语义和关联关系。本文详细解释了embedding技术的来龙去脉。
一、从token到embedding
其实token并非直接作为大模型的输入,在输入大模型之前,还需要对每个token进行“嵌入(embedding)”。
那么什么是embedding呢?为什么要做embedding呢?这个概念刚开始的时候特别让我迷惑,因为要讲清楚embedding所需要的背景知识非常多,我们还是从token开始说。正如上一篇文章中提到的,对于我们人类而言,输入的是“小明先吃水果然后喝凉水,果然拉肚子”,一共16个字,一个逗号。而对于DeepSeek-R1而言,它看到的是12个token,“59495, 1735, 2670, 22946, 4272, 6643, 10760, 1172, 303, 19200, 3082, 28550”,其中“水果=22946”,“然后=4272”,“果然=19200”。token就是把自然语言变成一个数字,使得计算机可以接受这一串数字作为输入。
对于“水果”这个词来说,其token=22946,代表这个词在分词器词汇表中的位置是22946,这个数字并没有任何语义。同时,根据 DeepSeek 公开的模型技术文档(如 DeepSeek-R1-Lite-Preview 技术报告),其分词器词汇表大小为 102,400。在机器学习领域,通常用One-Hot编码(独热编码)来表示一个词,这种编码是一个高维稀疏向量,其维度等于词表大小,即用102400维向量表示“水果”,只有第22946维编码为1,其他维编码都是0。这种编码的缺陷在于计算效率低下,且没有体现词与词之间的语义联系。
因此就需要embedding操作,在机器学习领域中,Embedding(嵌入)操作是模型理解输入信息的核心步骤。其核心作用在于将高维离散的符号化数据(如文字、图像像素等)转化为低维连续的向量表示,使模型能够通过数学计算捕捉语义和关联关系。例如:
text = “水果”
token=22946
one-hot=[0,0,…,1(第22946维),0,0,…] #102400维
embedding_vector = [0.25, -0.1, 0.7, …, 0.3] # 维度由模型决定(假设是1024维)
二、embedding的作用是什么
我们重新来看这句话“embedding的核心作用在于将高维离散的符号化数据转化为低维连续的向量表示,使模型能够通过数学计算捕捉语义和关联关系”。第一句话,将高维离散的符号化数据转化为低维连续的向量表示,意思是将一个高维的One-Hot编码的词转换为一个低维的实数向量。以上面为例,维度从102400维降低到1024维,向量的取值从0和1转化为实数。第二句话,使模型能够通过数学计算捕捉语义和关联关系,意思是将词以词向量的方式表达后,这些词向量的取值能够包含词与词之间的语义和关联关系。这句话还有一个更加易于理解的说法,语义相近的词,它们的词向量之间的距离也比较近。例如,目前我们的词向量是1024维的,那么向量空间就是1024维的实数空间,在这个空间内进行向量距离之间的计算可以得到一些值,例如dog和cat之间的距离就比较近,ant和bee也是,但是deer和grape之间的距离就比较远,下图是一个示意图,来自《What is ChatGPT doing and why does it work》这本书,图中把向量空间映射到了一个2维空间,便于我们观察:

因此可以说,通过某种方法,我们将一个词嵌入(embedding)到了一个语义空间,使得这个词的语义以向量的形式表达出来。所以,embedding就是一个映射,将词从原先所属的空间(例如102400个词组成的空间)映射到一个新的多维空间(例如1024维的实数空间),也就是把原来词所在的空间嵌入到这个新的空间中。后续所有对词的操作都在这个新的空间中完成。
Embedding的作用有两个,一是通过降低维数来降低了计算量,二是提取了词的语义从而使得下游任务得以更加轻松的完成。
三、怎样实现embedding?
现在我们知道embedding很重要,那么如何才能得到一个词的embedding呢?通用的思路就是通过一个神经网络来实现从词到词向量的映射。那么我在一无所知的情况下,让deepseek给我写了一段代码来实现中文词语的embedding,如下所示:

从上图可知,我们使用了bert-base-chinese这个模型,实现了对中文词的embedding,每个词都转换为768 维向量,可作为下游任务的输入。其中小猫和小狗的余弦相似度(取值范围为-1到1)为0.94,代表这两个词的语义接近,而小猫和苹果之间的余弦相似度为0.49,代表这两个词的语义不相似。
上面用到的bert-base-chinese模型其实是一个功能强大的预训练模型,并不仅仅是用来做embedding的,专用的embedding模型其实是Word2Vec,从字面意思就可以看出,它是一种从词语到向量的模型。Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型,它被大量地用在自然语言处理(NLP)中。在Word2Vec模型中,主要有Skip-Gram和CBOW两种模型,从直观上理解,Skip-Gram是给定input word来预测上下文,而CBOW是给定上下文,来预测input word。大部分人可能和我一样,看到这里已经懵了,完全不知道这个Word2Vec、CBOW和Skip-Gram是干什么的,这其实是对神经网络一些基本常识不足的原因,我们先要了解编码器、解码器、自编码器和Fake Task等概念才能理解Word2Vec模型。
四、编码器、解码器和自编码器
要理解Word2Vec,首先要了解神经网络中的编码器(Encoder)、解码器(Decoder)和自编码器(AutoEncoder)。
编码器是神经网络中负责将原始输入数据转换为紧凑特征表示的模块。其核心功能包括特征提取、数据压缩和上下文建模。我们可以认为编码器的作用就是将输入信息转换为另一种形式,同时保留输入信息中最精华、最有特征的值。一般而言,转换后的信息是某种压缩后的向量。
解码器是编码器的反向模块,负责将潜在空间的特征表示恢复为人类可理解的输出。其主要功能包括序列生成、数据重建和注意力机制。我们可以认为解码器就是把神经网络处理后的信息转换为人类可以理解的信息,如自然语言、图像等。一般而言,解码器输出的信息量要大于中间的信息。
编码器和解码器常常配合起来使用,例如机器翻译模型,可以用一个编码器把“中文语句”编码为中间向量,在潜在空间(Lantent space)中找到语气相近的“英文语句中间向量”,然后用解码器把这个“英文语句中间向量”解码成一个“英文语句”,从而实现翻译能力。但编码器、解码器也可以分开使用,各自实现各自的能力。
而“自编码器(AutoEncoder)”是“编码器-解码器”架构的一个特例,它是一种无监督特征学习的神经网络模型,其目的是通过编码和解码的过程来学习数据的低维有效表征。它也包含一个编码器和一个解码器,编码器将输入数据(如图像、文本)通过多层神经网络映射到低维潜在空间,从而提取数据的关键特征。例如,输入784维的MNIST图像可被压缩为32维的编码向量,实现数据降维。解码器将潜在空间的低维编码重构为原始数据维度的输出,目标是使重构结果与原始输入尽可能接近。例如,将32维的编码恢复为784维的图像。自编码器的核心目标是通过最小化输入与重构输出的差异(如均方误差、交叉熵损失),迫使模型学习数据的本质特征。其本质原理如下图所示:

输入信息通过编码器进入一个很小的中间层(称之为瓶颈),迫使信息降维,然后再通过解码器重构为原来的信息,通过比较重构信息与原信息之间的差异,能够完成模型的训练。
回头再来说Word2Vec,它其实分为两个部分,第一部分是建立模型,第二部分是通过模型获取embedding的词向量。Word2Vec的建模过程与自编码器很相似,先基于训练数据构建一个神经网络,当这个神经网络训练好以后,我们并不会直接使用这个神经网络,而是把这个神经网络的一部分(例如隐藏层的权重矩阵)拿出来,用来构建embedding词向量。所以构建模型的过程,我们叫它“Fake Task(伪任务)”,这种Fake Task有不同的方法,例如CBOW和Skip-Gram。
以Skip-Gram为例,其训练数据就是大量自然语言的句子,它将这些句子中相邻的词抽取出来组成[词A,词B]对,A是神经网络的输入,而B是正确的输出。我们假设这里分词器词汇表大小为 10000,中间层为300,那么模型架构如下:

这个模型的损失函数就是模型输出与B之间的差异,使用大量的数据训练这个神经网络,最终可以使得对于所有的[词A,词B]对,其损失函数都控制在一个很小的范围。这个模型训练完成以后,从输入层到隐藏层之间的权重是一个10000*300的矩阵,这个权重矩阵就可以用来将任何一个输入(这里是一个词的One-Hot编码)转换为一个300维的向量,也就是我们需要的embedding词向量。
五、如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)






第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐



所有评论(0)