引言

当您向ChatGPT或任何先进的AI输入“Hello world!”时,您可能以为它像人类一样看到了两个词和一句标点。但事实远非如此。在大型语言模型(LLM)的“眼中”,这句简单的话可能会被分解成['Hello', ' world', '!', '\n'] 这样的几个独立单元。这些单元就是**「Token」**。

Token是LLM处理文本的基本单位,它构成了模型理解、生成语言的基石。 您向模型发送的是Token,API按Token计费,模型读取、思考、生成的也全是Token。可以说,不理解Token,就无法真正理解LLM的能力与局限。本文将带您深入探索Token的奥秘,从它是什么,为何重要,到它如何深刻影响模型的性能,甚至是导致AI在简单数学问题上“犯傻”的根本原因。

什么是Token?不只是“单词”

首先要明确,「Token并不等同于单词」。 它是一个更基础、更灵活的概念。根据所使用的“分词(Tokenization)”方法,一个Token可以是一个完整的词、一个子词(subword)、一个字符,甚至是标点或空格。举个例子,对于英文句子 “I love machine learning!”,它可能被分词为:

  • ["I", "love", "machine", "learning", "!"] (以单词为单位)
  • ["I", " love", " machine", " learn", "ing", "!"] (以子词为单位)

对于中文而言,情况更为复杂。由于中文不像英文那样有天然的空格来分隔单词,分词策略就显得尤为关键。比如“我爱机器学习”这句话,可能会被分解为:

  • ['我', '爱', '机器', '学习'] (按词语)
  • ['我', '爱', '机', '器', '学', '习'] (按单字)

这种将文本分解为Token的过程,我们称之为**「分词(Tokenization)」**。

分词(Tokenization)至关重要?

分词(Tokenization)是LLM能够高效学习和处理语言的关键步骤,其重要性体现在以下几个方面:

  1. 「管理词汇表规模」:LLM的词汇表是有限的,通常在3万到10万个Token之间。 如果每个单词都对应一个Token,那词汇表将变得无比庞大,无法管理。通过将“extraordinary”这样的罕见词分解为“extra”和“ordinary”等可复用的子词单元,模型可以用有限的词汇表来表达几乎无限的语言组合。
  2. 「处理未知词汇」:一个优秀的分词器能够将模型从未见过的新词、罕见词或拼写错误的词分解成它认识的子词片段。 例如,模型可能没见过“生物催化剂”这个词,但只要它认识“bio”和“catalyst”这两个子词Token,就能在一定程度上推断出其含义。
  3. 「提升计算效率」:输入的文本序列越长(即Token数量越多),模型的计算开销就越大。 一个高效的分词算法可以用更少的Token来表示相同长度的文本,从而节约计算资源,加快响应速度。
  4. 「决定模型性能」:分词的质量直接影响LLM理解和生成文本的能力,尤其是在处理非英语语言或专业领域文本时。不恰当的分词会切碎词语的内在语义,或扭曲句子的语法结构,从而严重影响模型的表现。

Token向量化

文本被分解为Token之后,还不能直接被神经网络处理。模型需要一个中间步骤,将这些符号化的Token转换成数字。

这个过程分为两步:

  1. 「分配唯一ID」:词汇表中的每个Token都会被分配一个独一无二的整数ID。例如:
  • "Hello" → Token ID 15496
  • " world" → Token ID 995
  1. 「转换为嵌入向量(Embeddings)」:这些Token ID随后会通过一个称为“嵌入层(Embedding Layer)”的特殊网络层,映射成高维度的浮点数向量。比如,ID为15496的Token “Hello” 可能会被转换成一个包含数百甚至上千个维度的向量,如[0.23, -0.45, 0.78, ...]

这个数字化的过程是必需的,因为**「神经网络本质上是一个数学函数集合,它只能对数字进行运算」**。 这些被称为“嵌入向量”的数字数组,能够捕捉到Token之间的语义关系。 在这个高维空间中,意思相近的Token(如“king”与“queen”,“run”与“running”)其向量表示也更为接近。 这正是模型能够“理解”词义和语法的奥秘所在。

主流的分词方法

目前,业界有几种主流的分词算法,它们各有特点,并被不同的知名模型所采用。

1. 字节对编码 (Byte Pair Encoding, BPE)

BPE是目前最流行的分词算法之一,被GPT系列模型(GPT-2, GPT-3, GPT-4)广泛采用。它的工作原理是:

  • 从最基础的单个字符作为初始词汇表开始。
  • 在训练语料中,不断找出频率最高的相邻Token对,并将其合并成一个新的、更长的Token。
  • 重复这个合并过程,直到词汇表达到预设的大小。

BPE的优点是能够灵活地在字符和词之间取得平衡,既能高效表示常见词,也能将罕见词分解为子词单元,有效避免了“未知Token”的问题,OOV问题。

2. WordPiece

WordPiece由Google开发,是BERT、DistilBERT等模型的核心分词器。 它与BPE类似,也是从字符级别开始构建词汇表,但合并Token的策略略有不同。WordPiece并非选择频率最高的相邻对,而是选择能够最大化训练数据“似然度”(Likelihood)的合并项。它通常会用特殊前缀(如“##”)来标记非单词开头的子词,例如,“unhappy” 可能会被分解为["un", "##happy"]

3. SentencePiece

SentencePiece同样由Google推出,被T5、XLNet等模型使用。 它的最大特点是直接将文本视为一个原始的Unicode字符流进行处理,并将空格也视为一种普通符号并进行编码。 这使得它无需针对特定语言进行预处理(例如,中文和日文不需要预先分词),通用性极强。

具体工作原理:将输入文本视为原始的 Unicode 字符流,包括空格,其中空格保留为特殊符号(通常为“_ ”);可以实现 BPE 或 Unigram 语言模型算法;无需针对特定语言进行预分词;对于没有明确单词边界的语言(例如日语或中文)尤其有效。

例如,短语“Hello world”可以分词为 [“_Hello”, “_world”],其中_表示单词边界。

4. Unigram

Unigram常与SentencePiece结合使用,它采用了一种概率化的方法。 它不像BPE那样不断合并,而是从一个非常大的潜在词汇库开始,通过评估每个Token被移除后对整体损失的影响,逐步“修剪”掉价值最低的Token,直到词汇表收缩到目标大小。 这种方法为同一个词提供了多种可能的分词组合,增加了模型的灵活性。

上下文与模型能力的边界

所有LLM都有一个“上下文窗口(Context Window)”的限制,它代表了模型一次性可以处理的Token最大数量。 这个窗口大小直接决定了模型的许多核心能力:

  • 「输入长度」:你能给模型提供多少背景信息。
  • 「输出长度」:模型一次能生成多长的连贯文本。
  • 「记忆与连贯性」:在长对话或长文档处理中,模型能否保持主题不跑偏。

早期的模型如GPT-2的上下文窗口只有约1024个Token,GPT-3提升至2048。 而如今,像Gemini 1.5 Pro这样的前沿模型,其上下文窗口已经扩展到惊人的100万Token以上,足以一次性处理整本书籍、复杂的代码库或数小时的视频转录稿。

分词如何影响LLM的实际表现?

许多人观察到的LLM的“怪异”行为,其根源往往不在于模型本身,而在于分词。

  • 「拼写错误与纠错」:当用户输入一个拼写错误的单词时,分词器会将其分解成一堆罕见的、不合逻辑的子词组合。 由于模型学习的是常见Token序列的模式,这些陌生的组合会干扰它的理解,使其难以纠正错误。
  • 「多语言性能差异」:大多数主流分词器都是以英文为中心设计的,导致它们在处理其他语言(尤其是中文、日文、阿拉伯语等)时效率低下。 一个中文词往往会被分解成比对应英文词更多的Token,这不仅增加了API成本,也压缩了有效上下文的长度,最终导致在非英语任务上流畅度和准确性下降。
  • 「数学与代码能力」:分词是LLM在数学和编程上表现不佳的关键原因之一。数字 123.45 可能会被分解为 ["123", ".", "45"] 三个独立的Token。 这种割裂使得模型无法将“123.45”视为一个整体的数值单位,而是将其看作一串符号。 这严重破坏了它进行精确数学运算的能力。同理,代码中的特殊操作符、缩进或变量名如果被不恰当地拆分,也会极大影响模型生成和理解代码的准确性。

经典的“3.11 vs 3.9”问题

一个广为流传的例子是,很多LLM无法正确回答“3.11和3.9哪个更大?”。 背后正是分词在作祟。

当模型看到这两个数字时,它看到的不是两个浮点数,而是像["3", ".", "11"]["3", ".", "9"] 这样的Token序列。 它不是在进行数学比较,而是在进行模式匹配。 在它的训练数据中,“11”这个Token可能在各种语境下都与比“9”更大的概念相关联,因此模型会基于这种文本统计规律,错误地推断“3.11”更大。它缺乏真正的数字推理能力。

当然,现在的模型之所以有时能答对,原因有几个:

  • 「工具调用」:如今的LLM通常会集成计算器或代码解释器等工具。 遇到这类问题时,它会调用工具进行精确计算,而不是自己“思考”。
  • 「指令微调」:开发者会针对这类常见测试用例,进行专门的监督微调(SFT)训练,相当于“硬编码”了正确答案。
  • 「提示工程」:通过在提示词中明确要求进行数值分析或数学计算,可以引导模型进入更严谨的思维模式。

结论

Tokenization是LLM将我们丰富多彩的语言世界,转化为其可以理解和处理的数字世界的关键桥梁。 从BPE到SentencePiece,不同的分词方法决定了模型如何“看待”文本。

理解Token,不仅能帮助我们估算API成本、设计更优的提示词,还能让我们洞察AI的诸多“怪癖”——为什么它不擅长数学,为什么处理某些语言时力不从心,为什么一个简单的拼写错误会难倒一个万亿参数的模型。归根结底,Token是LLM观察世界的唯一“镜头”。 只有理解了这个镜头的特性、优点和瑕疵,我们才能更好地驾驭这些强大的工具,并清醒地认识到它们当前能力的边界。

想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年 AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享

👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告:覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:

  • 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
  • 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
  • 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
  • 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT:听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

在这里插入图片描述

  • 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
  • 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
  • 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
  • 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析

2. 102 道 AI 大模型真题:直击大模型核心考点

针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:


三、路线必明: AI 大模型学习路线图,1 张图理清核心内容

刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

在这里插入图片描述

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

img

L1阶段:启航篇丨极速破界AI新时代

L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

img

L2阶段:攻坚篇丨RAG开发实战工坊

L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

img

L3阶段:跃迁篇丨Agent智能体架构设计

L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

img

L4阶段:精进篇丨模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

img

L5阶段:专题集丨特训篇 【录播课】

img
四、资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!

Logo

更多推荐