Token是什么？大模型入门第一课！彻底搞懂这个“最小砖块”，收藏这篇就够了！

词元（token）本质是输入文本中的单词或单词片段。例如，对于文本“I like AI”（我喜欢人工智能），大模型（LLM）无法直接处理原始文本，因此会将其拆分为单词或单词片段。从图中可看出，该文本会生成3个词元。

Python_金钱豹

1530人浏览 · 2025-09-23 12:38:01

Python_金钱豹 · 2025-09-23 12:38:01 发布

观察下方图片会发现，文本“I like spiking neural networks ”（我喜欢尖峰神经网络）仅包含5个单词，却被拆分为6个词元，这看起来似乎有些奇怪。

分词器（Tokenizer）之所以不仅按完整单词拆分，核心目的是避免模型词汇表（类似词典）中包含数百万个单词。例如，若将“run”（跑）、“runner”（跑步者）、“running”（跑步）均纳入词汇表，当用户输入“runnings”（拼写错误）时，模型会将其识别为未知token（[UNK]），这不仅会阻碍模型理解新词或罕见词元，还会使其难以学习同一词根单词的变形（如词形变化）。

你可能会问：为何不直接按字符拆分？这样词汇表规模会非常小，只需包含26个字母和标点符号即可。

答案是否定的：按字符拆分会大幅增加序列长度，导致模型训练难度升高、效率降低，且需要大量计算资源。那么，该如何解决这一问题？

答案是字节对编码（BPE）。以下是为文本“I like spiking neural networks”生成词元的具体步骤：

拆分字节：将句子拆分为原始UTF-8字节（每个字符最多拆分为1-4个字节），字节范围为0-255，可覆盖字母、数字、标点符号甚至表情符号。拆分后序列为：[“I”, " ", “l”, “i”, “k”, “e”, " ", “s”, “p”, “i”, “k”, “i”, “n”, “g”, " ", “n”, “e”, “u”, “r”, “a”, “l”, " ", “n”, “e”, “t”, “w”, “o”, “r”, “k”, “s”]。
合并词元：将字符合并为分词器在训练阶段已学习的词元。以下为模型训练中可能的学习结果示例：
“I”——单个词元，出现频率极高；
“ like”——出现频率极高，作为单个词元；
“spiking”——出现频率不定，一种可能拆分为[" sp", “iking”]（“ sp”存在于“sport”“space”“special”等多个单词中，因此是合法词元）；
“ neural ”——出现频率极高，作为单个词元；
“ networks”——出现频率极高，作为单个词元。

若你仔细观察会发现，“ networks”这类单词前带有空格——这是因为字节级分词器通常将单词前的空格视为词元的一部分，因此“networks”（无前置空格）与“ networks”（有前置空格）是两个不同的词元，该设计可帮助分词器识别单词边界模式。

分词器采用从左到右的合并策略：先获取字符序列，再反复匹配并合并“最长的已知词元”（即贪心最长匹配算法，greedy longest-match）。这也是“常见的多字符片段能成为单个词元”的原因。最终得到的词元序列为：[“I”, " like", " sp", “iking”, " neural", " networks"]。

此时我们已得到词元，但该格式仍无法被大型语言模型直接理解，因此需要将词元转换为词元编号（Token IDs）。这些词元编号会关联到分词器内部的“词汇表”——该表包含了分词器可识别的所有词元。

从上图可看出，之前生成的6个词元已被转换为对应的词元编号。

另一个关键点是：大型语言模型生成的输出结果最初是数值形式（即词元编号），需通过分词器将其转换为自然语言文本。

因此，分词器的第一步称为编码（Encoding）（文本→词元编号），最后一步称为解码（Decoding）（词元编号→文本）。

以下是使用Python的tiktoken库构建分词器的代码：

先通过pip安装tiktoken库

pip install tiktoke

import tiktoken

为特定模型加载编码方式

encoding = tiktoken.encoding_for_model(“gpt-4o”)

将文本编码为词元（输出词元编号）

tokens = encoding.encode(“I like spiking neural networks”)
print(f"编码后的词元编号: {tokens}")

将词元编号解码回文本

decoded_text = encoding.decode(tokens)
print(f"解码后的文本: {decoded_text}")

该代码的输出结果如下：

编码后的词元编号: [40, 1299, 1014, 16768, 58480, 20240]
解码后的文本: I like spiking neural networks

分词器需传入多个关键参数，包括：

词汇表大小（Vocabulary Size）：分词器词汇表中包含的词元数量。目前，GPT-4o和GPT-4o-mini的词汇表约含20万个词元，早期GPT-4的词汇表约含10万个词元。
特殊词元（Special Tokens）：模型需跟踪的特殊词元，例如（文本开头）、（未知词元）等。大型语言模型的开发者可根据特定领域需求，自定义不同的特殊词元。
特殊词元，例如（文本开头）、（未知词元）等。大型语言模型的开发者可根据特定领域需求，自定义不同的特殊词元。
3.大小写处理方式（Capitalization Method）：是否将所有文本转换为小写。这一参数十分重要——保留大小写（如人名首字母大写）可能有帮助，但会占用额外的词汇表空间来存储单词的全大写版本。

如何学习大模型 AI ？

我国在AI大模型领域面临人才短缺，数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着Al技术飞速发展，预计到2025年，这一缺口将急剧扩大至400万，严重制约我国Al产业的创新步伐。加强人才培养，优化教育体系，国际合作并进，是破解困局、推动AI发展的关键。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学，我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路！

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍＋AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发，与智学优课联合孵化，培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

为什么要学习大模型？

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

在这里插入图片描述

适合人群

在校学生：包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础，有志于深入AGI大模型行业，希望开展相关的研究和开发工作。
IT行业从业人员：包括在职或失业者，涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验，至少1年以上的编程工作经验，对大模型技术感兴趣或有业务需求，希望通过课程提升自身在IT领域的竞争力。
IT管理及技术研究领域人员：包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势，主导技术创新，推动大模型技术在企业业务中的应用与改造。
传统AI从业人员：包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作，现需要快速补充大模型技术能力，获得大模型训练微调的实操技能，以适应新的技术发展趋势。

课程精彩瞬间

大模型核心原理与Prompt：掌握大语言模型的核心知识，了解行业应用与趋势；熟练Python编程，提升提示工程技能，为Al应用开发打下坚实基础。

RAG应用开发工程：掌握RAG应用开发全流程，理解前沿技术，提升商业化分析与优化能力，通过实战项目加深理解与应用。

Agent应用架构进阶实践：掌握大模型Agent技术的核心原理与实践应用，能够独立完成Agent系统的设计与开发，提升多智能体协同与复杂任务处理的能力，为AI产品的创新与优化提供有力支持。

模型微调与私有化大模型：掌握大模型微调与私有化部署技能，提升模型优化与部署能力，为大模型项目落地打下坚实基础。

顶尖师资，深耕AI大模型前沿技术

实战专家亲授，让你少走弯路
在这里插入图片描述

一对一学习规划，职业生涯指导

真实商业项目实训

大厂绿色直通车

人才库优秀学员参与真实商业项目实训

以商业交付标准作为学习标准，具备真实大模型项目实践操作经验可写入简历，支持项目背调

大厂绿色直通车，冲击行业高薪岗位

文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

北京朝阳AI社区

更多推荐

大模型架构设计与落地：从技术到业务的完整闭环，收藏级教程！

北京朝阳AI社区

【珍藏干货】深入浅出大模型：预训练、监督微调、强化学习、RLHF全解析！

北京朝阳AI社区

深入解析 ChatGPT Atlas 浏览器的 Agent 模式：AI 代理带来浏览新体验

10 月份的科技圈一如新张场面，OpenAI 忽然抛出一颗“大炸弹”：一款叫做 ChatGPT Atlas 的浏览器。别的小伙伴还在想着装个插件让浏览器聪明点，OpenAI 直接把 ChatGPT 塞进了浏览器的骨齿里。侧边栏问答、Browser Memories、Agent 模式……说是“浏览器”，其实更像随身带了一个 AI 小助手。作为“早鸭”用户的我们当然要小试先实，不过一开盒就会发现，它还