大模型中的embedding到底是什么含义？Embedding技术详解与代码实践！

Embedding是机器学习中将高维离散数据转化为低维连续向量的核心技术，使大模型能捕捉语义关联。本文从token开始，解释了embedding如何替代One-Hot编码，降低维度并保留语义信息。通过BERT和Word2Vec等模型实现embedding，介绍了编码器、解码器和自编码器概念，帮助理解Skip-Gram和CBOW工作原理。掌握embedding技术是理解大模型工作机制的关键一步。

m0_63171455

1607人浏览 · 2025-09-27 07:45:00

m0_63171455 · 2025-09-27 07:45:00 发布

在机器学习领域中，Embedding（嵌入）操作是模型理解输入信息的核心步骤。其核心作用在于将高维离散的符号化数据（如文字、图像像素等）转化为低维连续的向量表示，使模型能够通过数学计算捕捉语义和关联关系。本文详细解释了embedding技术的来龙去脉。

一、从token到embedding

其实token并非直接作为大模型的输入，在输入大模型之前，还需要对每个token进行“嵌入（embedding）”。

那么什么是embedding呢？为什么要做embedding呢？这个概念刚开始的时候特别让我迷惑，因为要讲清楚embedding所需要的背景知识非常多，我们还是从token开始说。正如上一篇文章中提到的，对于我们人类而言，输入的是“小明先吃水果然后喝凉水，果然拉肚子”，一共16个字，一个逗号。而对于DeepSeek-R1而言，它看到的是12个token，“59495, 1735, 2670, 22946, 4272, 6643, 10760, 1172, 303, 19200, 3082, 28550”，其中“水果=22946”，“然后=4272”，“果然=19200”。token就是把自然语言变成一个数字，使得计算机可以接受这一串数字作为输入。

对于“水果”这个词来说，其token=22946，代表这个词在分词器词汇表中的位置是22946，这个数字并没有任何语义。同时，根据 DeepSeek 公开的模型技术文档（如 DeepSeek-R1-Lite-Preview 技术报告），其分词器词汇表大小为 102,400。在机器学习领域，通常用One-Hot编码（独热编码）来表示一个词，这种编码是一个高维稀疏向量，其维度等于词表大小，即用102400维向量表示“水果”，只有第22946维编码为1，其他维编码都是0。这种编码的缺陷在于计算效率低下，且没有体现词与词之间的语义联系。

因此就需要embedding操作，在机器学习领域中，Embedding（嵌入）操作是模型理解输入信息的核心步骤。其核心作用在于将高维离散的符号化数据（如文字、图像像素等）转化为低维连续的向量表示，使模型能够通过数学计算捕捉语义和关联关系。例如：

text = “水果”

token=22946

one-hot=[0,0,…,1(第22946维),0,0,…] #102400维

embedding_vector = [0.25, -0.1, 0.7, …, 0.3] # 维度由模型决定（假设是1024维）

二、embedding的作用是什么

我们重新来看这句话“embedding的核心作用在于将高维离散的符号化数据转化为低维连续的向量表示，使模型能够通过数学计算捕捉语义和关联关系”。第一句话，将高维离散的符号化数据转化为低维连续的向量表示，意思是将一个高维的One-Hot编码的词转换为一个低维的实数向量。以上面为例，维度从102400维降低到1024维，向量的取值从0和1转化为实数。第二句话，使模型能够通过数学计算捕捉语义和关联关系，意思是将词以词向量的方式表达后，这些词向量的取值能够包含词与词之间的语义和关联关系。这句话还有一个更加易于理解的说法，语义相近的词，它们的词向量之间的距离也比较近。例如，目前我们的词向量是1024维的，那么向量空间就是1024维的实数空间，在这个空间内进行向量距离之间的计算可以得到一些值，例如dog和cat之间的距离就比较近，ant和bee也是，但是deer和grape之间的距离就比较远，下图是一个示意图，来自《What is ChatGPT doing and why does it work》这本书，图中把向量空间映射到了一个2维空间，便于我们观察：

因此可以说，通过某种方法，我们将一个词嵌入（embedding）到了一个语义空间，使得这个词的语义以向量的形式表达出来。所以，embedding就是一个映射，将词从原先所属的空间（例如102400个词组成的空间）映射到一个新的多维空间（例如1024维的实数空间），也就是把原来词所在的空间嵌入到这个新的空间中。后续所有对词的操作都在这个新的空间中完成。

Embedding的作用有两个，一是通过降低维数来降低了计算量，二是提取了词的语义从而使得下游任务得以更加轻松的完成。

三、怎样实现embedding?

现在我们知道embedding很重要，那么如何才能得到一个词的embedding呢？通用的思路就是通过一个神经网络来实现从词到词向量的映射。那么我在一无所知的情况下，让deepseek给我写了一段代码来实现中文词语的embedding，如下所示：

从上图可知，我们使用了bert-base-chinese这个模型，实现了对中文词的embedding，每个词都转换为768 维向量，可作为下游任务的输入。其中小猫和小狗的余弦相似度（取值范围为-1到1）为0.94，代表这两个词的语义接近，而小猫和苹果之间的余弦相似度为0.49，代表这两个词的语义不相似。

上面用到的bert-base-chinese模型其实是一个功能强大的预训练模型，并不仅仅是用来做embedding的，专用的embedding模型其实是Word2Vec，从字面意思就可以看出，它是一种从词语到向量的模型。Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处理（NLP）中。在Word2Vec模型中，主要有Skip-Gram和CBOW两种模型，从直观上理解，Skip-Gram是给定input word来预测上下文，而CBOW是给定上下文，来预测input word。大部分人可能和我一样，看到这里已经懵了，完全不知道这个Word2Vec、CBOW和Skip-Gram是干什么的，这其实是对神经网络一些基本常识不足的原因，我们先要了解编码器、解码器、自编码器和Fake Task等概念才能理解Word2Vec模型。

四、编码器、解码器和自编码器

要理解Word2Vec，首先要了解神经网络中的编码器（Encoder）、解码器（Decoder）和自编码器（AutoEncoder）。

编码器是神经网络中负责将原始输入数据转换为紧凑特征表示的模块。其核心功能包括特征提取、数据压缩和上下文建模。我们可以认为编码器的作用就是将输入信息转换为另一种形式，同时保留输入信息中最精华、最有特征的值。一般而言，转换后的信息是某种压缩后的向量。

解码器是编码器的反向模块，负责将潜在空间的特征表示恢复为人类可理解的输出。其主要功能包括序列生成、数据重建和注意力机制。我们可以认为解码器就是把神经网络处理后的信息转换为人类可以理解的信息，如自然语言、图像等。一般而言，解码器输出的信息量要大于中间的信息。

编码器和解码器常常配合起来使用，例如机器翻译模型，可以用一个编码器把“中文语句”编码为中间向量，在潜在空间（Lantent space）中找到语气相近的“英文语句中间向量”，然后用解码器把这个“英文语句中间向量”解码成一个“英文语句”，从而实现翻译能力。但编码器、解码器也可以分开使用，各自实现各自的能力。

而“自编码器（AutoEncoder）”是“编码器-解码器”架构的一个特例，它是一种无监督特征学习的神经网络模型，其目的是通过编码和解码的过程来学习数据的低维有效表征。它也包含一个编码器和一个解码器，编码器将输入数据（如图像、文本）通过多层神经网络映射到低维潜在空间，从而提取数据的关键特征。例如，输入784维的MNIST图像可被压缩为32维的编码向量，实现数据降维。解码器将潜在空间的低维编码重构为原始数据维度的输出，目标是使重构结果与原始输入尽可能接近。例如，将32维的编码恢复为784维的图像。自编码器的核心目标是通过最小化输入与重构输出的差异（如均方误差、交叉熵损失），迫使模型学习数据的本质特征。其本质原理如下图所示：

输入信息通过编码器进入一个很小的中间层（称之为瓶颈），迫使信息降维，然后再通过解码器重构为原来的信息，通过比较重构信息与原信息之间的差异，能够完成模型的训练。

回头再来说Word2Vec，它其实分为两个部分，第一部分是建立模型，第二部分是通过模型获取embedding的词向量。Word2Vec的建模过程与自编码器很相似，先基于训练数据构建一个神经网络，当这个神经网络训练好以后，我们并不会直接使用这个神经网络，而是把这个神经网络的一部分（例如隐藏层的权重矩阵）拿出来，用来构建embedding词向量。所以构建模型的过程，我们叫它“Fake Task（伪任务）”，这种Fake Task有不同的方法，例如CBOW和Skip-Gram。

以Skip-Gram为例，其训练数据就是大量自然语言的句子，它将这些句子中相邻的词抽取出来组成[词A，词B]对，A是神经网络的输入，而B是正确的输出。我们假设这里分词器词汇表大小为 10000，中间层为300，那么模型架构如下：

这个模型的损失函数就是模型输出与B之间的差异，使用大量的数据训练这个神经网络，最终可以使得对于所有的[词A，词B]对，其损失函数都控制在一个很小的范围。这个模型训练完成以后，从输入层到隐藏层之间的权重是一个10000*300的矩阵，这个权重矩阵就可以用来将任何一个输入（这里是一个词的One-Hot编码）转换为一个300维的向量，也就是我们需要的embedding词向量。

五、如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述