深刻理解Token：大语言模型（LLM）是如何看待这世界？大模型入门到精通，收藏这篇就足够了！

本文将带您深入探索Token的奥秘，从它是什么，为何重要，到它如何深刻影响模型的性能，甚至是导致AI在简单数学问题上“犯傻”的根本原因。

菜鸟Java码农

858人浏览 · 2025-10-04 09:30:00

菜鸟Java码农 · 2025-10-04 09:30:00 发布

引言

当您向ChatGPT或任何先进的AI输入“Hello world!”时，您可能以为它像人类一样看到了两个词和一句标点。但事实远非如此。在大型语言模型（LLM）的“眼中”，这句简单的话可能会被分解成['Hello', ' world', '!', '\n'] 这样的几个独立单元。这些单元就是**「Token」**。

Token是LLM处理文本的基本单位，它构成了模型理解、生成语言的基石。您向模型发送的是Token，API按Token计费，模型读取、思考、生成的也全是Token。可以说，不理解Token，就无法真正理解LLM的能力与局限。本文将带您深入探索Token的奥秘，从它是什么，为何重要，到它如何深刻影响模型的性能，甚至是导致AI在简单数学问题上“犯傻”的根本原因。

什么是Token？不只是“单词”

首先要明确，「Token并不等同于单词」。它是一个更基础、更灵活的概念。根据所使用的“分词（Tokenization）”方法，一个Token可以是一个完整的词、一个子词（subword）、一个字符，甚至是标点或空格。举个例子，对于英文句子 “I love machine learning!”，它可能被分词为：

["I", "love", "machine", "learning", "!"] （以单词为单位）
["I", " love", " machine", " learn", "ing", "!"] （以子词为单位）

对于中文而言，情况更为复杂。由于中文不像英文那样有天然的空格来分隔单词，分词策略就显得尤为关键。比如“我爱机器学习”这句话，可能会被分解为：

['我', '爱', '机器', '学习'] (按词语)
['我', '爱', '机', '器', '学', '习'] (按单字)

这种将文本分解为Token的过程，我们称之为**「分词（Tokenization）」**。

分词（Tokenization）至关重要？

分词（Tokenization）是LLM能够高效学习和处理语言的关键步骤，其重要性体现在以下几个方面：

「管理词汇表规模」：LLM的词汇表是有限的，通常在3万到10万个Token之间。如果每个单词都对应一个Token，那词汇表将变得无比庞大，无法管理。通过将“extraordinary”这样的罕见词分解为“extra”和“ordinary”等可复用的子词单元，模型可以用有限的词汇表来表达几乎无限的语言组合。
「处理未知词汇」：一个优秀的分词器能够将模型从未见过的新词、罕见词或拼写错误的词分解成它认识的子词片段。例如，模型可能没见过“生物催化剂”这个词，但只要它认识“bio”和“catalyst”这两个子词Token，就能在一定程度上推断出其含义。
「提升计算效率」：输入的文本序列越长（即Token数量越多），模型的计算开销就越大。一个高效的分词算法可以用更少的Token来表示相同长度的文本，从而节约计算资源，加快响应速度。
「决定模型性能」：分词的质量直接影响LLM理解和生成文本的能力，尤其是在处理非英语语言或专业领域文本时。不恰当的分词会切碎词语的内在语义，或扭曲句子的语法结构，从而严重影响模型的表现。

Token向量化

文本被分解为Token之后，还不能直接被神经网络处理。模型需要一个中间步骤，将这些符号化的Token转换成数字。

这个过程分为两步：

「分配唯一ID」：词汇表中的每个Token都会被分配一个独一无二的整数ID。例如：

"Hello" → Token ID 15496
" world" → Token ID 995

「转换为嵌入向量（Embeddings）」：这些Token ID随后会通过一个称为“嵌入层（Embedding Layer）”的特殊网络层，映射成高维度的浮点数向量。比如，ID为15496的Token “Hello” 可能会被转换成一个包含数百甚至上千个维度的向量，如[0.23, -0.45, 0.78, ...]。

这个数字化的过程是必需的，因为**「神经网络本质上是一个数学函数集合，它只能对数字进行运算」**。这些被称为“嵌入向量”的数字数组，能够捕捉到Token之间的语义关系。在这个高维空间中，意思相近的Token（如“king”与“queen”，“run”与“running”）其向量表示也更为接近。这正是模型能够“理解”词义和语法的奥秘所在。

主流的分词方法

目前，业界有几种主流的分词算法，它们各有特点，并被不同的知名模型所采用。

1. 字节对编码 (Byte Pair Encoding, BPE)

BPE是目前最流行的分词算法之一，被GPT系列模型（GPT-2, GPT-3, GPT-4）广泛采用。它的工作原理是：

从最基础的单个字符作为初始词汇表开始。
在训练语料中，不断找出频率最高的相邻Token对，并将其合并成一个新的、更长的Token。
重复这个合并过程，直到词汇表达到预设的大小。

BPE的优点是能够灵活地在字符和词之间取得平衡，既能高效表示常见词，也能将罕见词分解为子词单元，有效避免了“未知Token”的问题，OOV问题。

2. WordPiece

WordPiece由Google开发，是BERT、DistilBERT等模型的核心分词器。它与BPE类似，也是从字符级别开始构建词汇表，但合并Token的策略略有不同。WordPiece并非选择频率最高的相邻对，而是选择能够最大化训练数据“似然度”（Likelihood）的合并项。它通常会用特殊前缀（如“##”）来标记非单词开头的子词，例如，“unhappy” 可能会被分解为["un", "##happy"]。

3. SentencePiece

SentencePiece同样由Google推出，被T5、XLNet等模型使用。它的最大特点是直接将文本视为一个原始的Unicode字符流进行处理，并将空格也视为一种普通符号并进行编码。这使得它无需针对特定语言进行预处理（例如，中文和日文不需要预先分词），通用性极强。

具体工作原理：将输入文本视为原始的 Unicode 字符流，包括空格，其中空格保留为特殊符号（通常为“_ ”）；可以实现 BPE 或 Unigram 语言模型算法；无需针对特定语言进行预分词；对于没有明确单词边界的语言（例如日语或中文）尤其有效。

例如，短语“Hello world”可以分词为 [“_Hello”, “_world”]，其中_表示单词边界。

4. Unigram

Unigram常与SentencePiece结合使用，它采用了一种概率化的方法。它不像BPE那样不断合并，而是从一个非常大的潜在词汇库开始，通过评估每个Token被移除后对整体损失的影响，逐步“修剪”掉价值最低的Token，直到词汇表收缩到目标大小。这种方法为同一个词提供了多种可能的分词组合，增加了模型的灵活性。

上下文与模型能力的边界

所有LLM都有一个“上下文窗口（Context Window）”的限制，它代表了模型一次性可以处理的Token最大数量。这个窗口大小直接决定了模型的许多核心能力：

「输入长度」：你能给模型提供多少背景信息。
「输出长度」：模型一次能生成多长的连贯文本。
「记忆与连贯性」：在长对话或长文档处理中，模型能否保持主题不跑偏。

早期的模型如GPT-2的上下文窗口只有约1024个Token，GPT-3提升至2048。而如今，像Gemini 1.5 Pro这样的前沿模型，其上下文窗口已经扩展到惊人的100万Token以上，足以一次性处理整本书籍、复杂的代码库或数小时的视频转录稿。

分词如何影响LLM的实际表现？

许多人观察到的LLM的“怪异”行为，其根源往往不在于模型本身，而在于分词。

「拼写错误与纠错」：当用户输入一个拼写错误的单词时，分词器会将其分解成一堆罕见的、不合逻辑的子词组合。由于模型学习的是常见Token序列的模式，这些陌生的组合会干扰它的理解，使其难以纠正错误。
「多语言性能差异」：大多数主流分词器都是以英文为中心设计的，导致它们在处理其他语言（尤其是中文、日文、阿拉伯语等）时效率低下。一个中文词往往会被分解成比对应英文词更多的Token，这不仅增加了API成本，也压缩了有效上下文的长度，最终导致在非英语任务上流畅度和准确性下降。
「数学与代码能力」：分词是LLM在数学和编程上表现不佳的关键原因之一。数字 123.45 可能会被分解为 ["123", ".", "45"] 三个独立的Token。这种割裂使得模型无法将“123.45”视为一个整体的数值单位，而是将其看作一串符号。这严重破坏了它进行精确数学运算的能力。同理，代码中的特殊操作符、缩进或变量名如果被不恰当地拆分，也会极大影响模型生成和理解代码的准确性。

经典的“3.11 vs 3.9”问题

一个广为流传的例子是，很多LLM无法正确回答“3.11和3.9哪个更大？”。背后正是分词在作祟。

当模型看到这两个数字时，它看到的不是两个浮点数，而是像["3", ".", "11"] 和 ["3", ".", "9"] 这样的Token序列。它不是在进行数学比较，而是在进行模式匹配。在它的训练数据中，“11”这个Token可能在各种语境下都与比“9”更大的概念相关联，因此模型会基于这种文本统计规律，错误地推断“3.11”更大。它缺乏真正的数字推理能力。

当然，现在的模型之所以有时能答对，原因有几个：

「工具调用」：如今的LLM通常会集成计算器或代码解释器等工具。遇到这类问题时，它会调用工具进行精确计算，而不是自己“思考”。
「指令微调」：开发者会针对这类常见测试用例，进行专门的监督微调（SFT）训练，相当于“硬编码”了正确答案。
「提示工程」：通过在提示词中明确要求进行数值分析或数学计算，可以引导模型进入更严谨的思维模式。

结论

Tokenization是LLM将我们丰富多彩的语言世界，转化为其可以理解和处理的数字世界的关键桥梁。从BPE到SentencePiece，不同的分词方法决定了模型如何“看待”文本。

理解Token，不仅能帮助我们估算API成本、设计更优的提示词，还能让我们洞察AI的诸多“怪癖”——为什么它不擅长数学，为什么处理某些语言时力不从心，为什么一个简单的拼写错误会难倒一个万亿参数的模型。归根结底，Token是LLM观察世界的唯一“镜头”。只有理解了这个镜头的特性、优点和瑕疵，我们才能更好地驾驭这些强大的工具，并清醒地认识到它们当前能力的边界。

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例？大模型电子书？这份资料帮你站在 “行业高度” 学 AI：

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告：覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容，涵盖：

职业趋势：《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》；
商业落地：《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》；
领域细分：《AGI 在金融领域的应用报告》《AI GC 实践案例集》；
行业监测：《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT：听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会，包含百度、腾讯、字节等企业的一线实践：

在这里插入图片描述

安全方向：《端侧大模型的安全建设》《大模型驱动安全升级（腾讯代码安全实践）》；
产品与创新：《大模型产品如何创新与创收》《AI 时代的新范式：构建 AI 产品》；
多模态与 Agent：《Step-Video 开源模型（视频生成进展）》《Agentic RAG 的现在与未来》；
工程落地：《从原型到生产：AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗？这份面试资料帮你提前 “押题”，拒绝临场慌！

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景，包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题，每道题都附带思路解析：

2. 102 道 AI 大模型真题：直击大模型核心考点

针对大模型专属考题，从概念到实践全面覆盖，帮你理清底层逻辑：

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案，比如让很多人头疼的 “复读机问题”：

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

刚接触 AI 大模型，不知道该从哪学起？这份「AI大模型学习路线图」直接帮你划重点，不用再盲目摸索！

在这里插入图片描述

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口？别犹豫，这份免费资料就是你的 “起跑线”！

北京朝阳AI社区

更多推荐

35+非技术岗，如何在 AI 领域寻求破局？大模型入门到精通，收藏这篇就足够了！

北京朝阳AI社区

未来大学分化猛烈，软件公司靠 “几人 + Agent” 就够

类与AI间的对决，自2016年的AlphaGo打赢世界围棋冠军李世石起，就开始不断出现在大众视线中，出圈的例子更是不少。人类与 AI 间的对决，自 2016 年的 AlphaGo 打赢世界围棋冠军李世石起，就开始不断出现在大众视线中，出圈的例子更是不少。曾担任《最强大脑》节目首席科学家的刘嘉，也亲眼见证过这样一场比赛。当时，还是百度大脑首席科学家的吴恩达带着搭载百度大脑的智能机器人小度上了舞台，与