AI每日碎片化学习笔记-Token

简单来讲，模型会按照分词器（Tokenizer）的拆分逻辑将语言文字分段，将文本转化为Token序列，并为每个Token分配一个唯一的ID，这些ID会被映射为高维向量，模型基于这些向量来理解文本的语义，并进行后续的计算和生成等操作。Token英文释义为令牌、标志、词元(自然语言)等，自然语言中，具备含义的最小文字单元为词元，在大语言模型中，模型能够识别出来的文字组块就是Token，Token本质是

时光的海38

279人浏览 · 2025-09-08 15:06:50

时光的海38 · 2025-09-08 15:06:50 发布

2025年9月5日，月之暗面（Moonshot AI）官方宣布推出 Kimi K2模型最新版本（0905），在编程能力与任务处理性能方面进一步优化。在模型能力方面，K2的上下文长度已由128K 扩展至256K，能够支持更复杂、长线的任务需求。此外，新版本还推出高速版 API，输出速度可达60-100Token/s，大幅提升了响应效率。

在通信或者计算机中传输速度经常用bit来衡量，为什么模型会用Token来衡量，何为Token呢?

Token英文释义为令牌、标志、词元(自然语言)等，自然语言中，具备含义的最小文字单元为词元，在大语言模型中，模型能够识别出来的文字组块就是Token，Token本质是模型处理文本的最小单位，它不是固定的字或词，可能是一个字、一个词、甚至词的一部分。

简单来讲，模型会按照分词器（Tokenizer）的拆分逻辑将语言文字分段，将文本转化为Token序列，并为每个Token分配一个唯一的ID，这些ID会被映射为高维向量，模型基于这些向量来理解文本的语义，并进行后续的计算和生成等操作。在生成文本时，模型也是逐步预测下一个Token，直到满足生成条件为止。

模型处理Token的过程分为prefill（预填充）和解码（decoding）两个阶段。

输入文字读取理解(prefill阶段)，该阶段并行处理输入的tokens，生成KV cache，这个阶段的处理速度通常用每秒处理的输入Tokens数量来衡量。

输出文字(decoding阶段)，该阶段逐个生成下一个Token，这个阶段的速度被称为每字输出时间（TPOT）或每秒令牌数（TPS），它直接决定了模型输出文字的快慢。

Token与语言文字之间存在映射关系，现有模型每个Token对应的实际文字映射数量不同，下列给出几个常见的模型作为示例，只要理解一个Token并不总是指代一个文字，他们之间存在不同的映射关系即可：

模型名称处理速度与实际文字映射数量

DeepSeek 200 参考腾讯，1 token约等于1.8个汉字

通义千问 30-50 1 token等于1个汉字

火山豆包 30-50 参考通义千问，1 token等于1个汉字

腾讯元宝 30-50 1 token约等于1.8个汉字

K2 60-100 1 token大约为1.5-2个汉字

既然每个模型划分Token的方法不同，对应映射的实际文字数目不同，会存在一个每秒处理Token多的模型与一个每秒处理Token少的模型刚好处理的具体文字数目一致的情况，为什么Token依旧作为衡量模型的一个标准呢？

- 反映模型底层处理效率：token生成速度（TPOT）等指标反映了模型在生成文本时的底层计算效率。

- 衡量模型处理文本的流畅度和效率：对于用户来说，token生成速度快的模型，在生成文本时会给人一种更流畅的感觉。

- 体现模型的资源利用和并发处理能力：极限出字率（TPS）是系统在满载情况下每秒生成token的最大数量，它反映了模型对硬件资源的利用效率以及并发处理请求的能力。一个能够达到更高TPS的模型，意味着它可以在单位时间内处理更多的任务，无论是在单用户还是多用户场景下，都能展现出更好的性能表现。

- 同时token不是衡量模型的唯一指标，还会结合其他指标综合评估模型能力：首token延迟（TTFT）、端到端延迟（E2E）、吞吐量、GPU利用率等。

影响模型Token处理速度的因素有以下几个方面：

- 硬件性能：GPU、TPU等硬件的计算能力是影响token处理速度的关键因素。高性能的硬件如NVIDIA A100、H100等具有强大的并行计算能力，能够快速处理token 。同时，硬件的内存带宽也至关重要，若内存带宽不足，无法及时传输数据，会导致处理速度下降。

- 模型架构：不同的模型架构对token处理速度有显著影响。例如，Transformer架构是目前大模型常用的架构，其优化版本如Flash Attention等，通过减少计算量和内存访问次数，可提升token处理速度。此外，字节跳动的基于Diffusion架构的模型，在输出速度上表现出色，可达2146 tokens/s。

- 计算模式：模型处理token的过程分为prefill和decoding两个阶段。prefill阶段可并行处理输入tokens，速度较快；而decoding阶段采用自回归方式逐个生成输出token，无法并行化，计算复杂度高，速度相对较慢。

- 模型参数规模：一般来说，模型参数规模越大，需要处理的数据量和计算量也越大，token处理速度可能会变慢。但如果硬件性能足够强大且模型优化得当，大模型也可以通过并行计算等方式保持较高的处理速度。

- 内存管理：KV Cache的管理对token处理速度影响很大。随着输出token的增加，KV Cache的大小会随之增加，占用更多内存。如果内存管理不善，如频繁的内存交换或KV Cache的丢弃和重复计算，会导致处理速度下降。

- 推理框架：不同的推理框架（如PyTorch、TensorFlow等）在性能上存在差异，优化后的推理框架可以提高模型的计算效率和内存利用率，从而提升token处理速度。此外，一些专门为推理设计的框架或工具，如TensorRT等，也可以通过对模型进行优化编译，加快token处理速度。

深圳城市开发者社区

一座年轻的奋斗人之城，一个温馨的开发者之家。在这里，代码改变人生，开发创造未来！

更多推荐

当AI把用户数据当“食材“：初级开发者如何成为创意“主厨“

深圳城市开发者社区

ChatGPT 为什么不说脏话、不瞎编？真相藏在这套“人类驯化术”里

ChatGPT为何懂礼貌、不胡编、会自省？背后是RLHF“人类驯化术”——通过三步：SFT教标准回答、奖励模型学人类偏好、PPO+KL惩罚优化行为，让AI从“野性天才”变“知书达理”。LLaMA-2等模型也靠它对齐价值观。新方法DPO更轻更快，跳过奖励模型直接学偏好。核心不是教知识，而是教“做人”——AI的温度，源于人类定义的“好”。