2025年9月5日,月之暗面(Moonshot AI)官方宣布推出 Kimi K2模型最新版本(0905),在编程能力与任务处理性能方面进一步优化。在模型能力方面,K2的上下文长度已由128K 扩展至256K,能够支持更复杂、长线的任务需求。此外,新版本还推出高速版 API,输出速度可达60-100Token/s,大幅提升了响应效率。

 

在通信或者计算机中传输速度经常用bit来衡量,为什么模型会用Token来衡量,何为Token呢?

Token英文释义为令牌、标志、词元(自然语言)等,自然语言中,具备含义的最小文字单元为词元,在大语言模型中,模型能够识别出来的文字组块就是Token,Token本质是模型处理文本的最小单位,它不是固定的字或词,可能是一个字、一个词、甚至词的一部分。

简单来讲,模型会按照分词器(Tokenizer)的拆分逻辑将语言文字分段,将文本转化为Token序列,并为每个Token分配一个唯一的ID,这些ID会被映射为高维向量,模型基于这些向量来理解文本的语义,并进行后续的计算和生成等操作 。在生成文本时,模型也是逐步预测下一个Token,直到满足生成条件为止。

模型处理Token的过程分为prefill(预填充)和解码(decoding)两个阶段 。

输入文字读取理解(prefill阶段),该阶段并行处理输入的tokens,生成KV cache,这个阶段的处理速度通常用每秒处理的输入Tokens数量来衡量 。

输出文字(decoding阶段),该阶段逐个生成下一个Token,这个阶段的速度被称为每字输出时间(TPOT)或每秒令牌数(TPS),它直接决定了模型输出文字的快慢。

Token与语言文字之间存在映射关系,现有模型每个Token对应的实际文字映射数量不同,下列给出几个常见的模型作为示例,只要理解一个Token并不总是指代一个文字,他们之间存在不同的映射关系即可:

模型名称 处理速度 与实际文字映射数量

DeepSeek 200 参考腾讯,1 token约等于1.8个汉字

通义千问 30-50 1 token等于1个汉字

火山豆包 30-50 参考通义千问,1 token等于1个汉字

腾讯元宝 30-50 1 token约等于1.8个汉字

K2 60-100 1 token大约为1.5-2个汉字

 

既然每个模型划分Token的方法不同,对应映射的实际文字数目不同,会存在一个每秒处理Token多的模型与一个每秒处理Token少的模型刚好处理的具体文字数目一致的情况,为什么Token依旧作为衡量模型的一个标准呢?

- 反映模型底层处理效率 :token生成速度(TPOT)等指标反映了模型在生成文本时的底层计算效率。

- 衡量模型处理文本的流畅度和效率 :对于用户来说,token生成速度快的模型,在生成文本时会给人一种更流畅的感觉。

- 体现模型的资源利用和并发处理能力 :极限出字率(TPS)是系统在满载情况下每秒生成token的最大数量,它反映了模型对硬件资源的利用效率以及并发处理请求的能力。一个能够达到更高TPS的模型,意味着它可以在单位时间内处理更多的任务,无论是在单用户还是多用户场景下,都能展现出更好的性能表现。

- 同时token不是衡量模型的唯一指标,还会结合其他指标综合评估模型能力:首token延迟(TTFT)、端到端延迟(E2E)、吞吐量、GPU利用率等 。

 

影响模型Token处理速度的因素有以下几个方面:

- 硬件性能:GPU、TPU等硬件的计算能力是影响token处理速度的关键因素。高性能的硬件如NVIDIA A100、H100等具有强大的并行计算能力,能够快速处理token 。同时,硬件的内存带宽也至关重要,若内存带宽不足,无法及时传输数据,会导致处理速度下降 。

- 模型架构:不同的模型架构对token处理速度有显著影响。例如,Transformer架构是目前大模型常用的架构,其优化版本如Flash Attention等,通过减少计算量和内存访问次数,可提升token处理速度。此外,字节跳动的基于Diffusion架构的模型,在输出速度上表现出色,可达2146 tokens/s。

- 计算模式 :模型处理token的过程分为prefill和decoding两个阶段。prefill阶段可并行处理输入tokens,速度较快;而decoding阶段采用自回归方式逐个生成输出token,无法并行化,计算复杂度高,速度相对较慢。

- 模型参数规模:一般来说,模型参数规模越大,需要处理的数据量和计算量也越大,token处理速度可能会变慢。但如果硬件性能足够强大且模型优化得当,大模型也可以通过并行计算等方式保持较高的处理速度。

- 内存管理 :KV Cache的管理对token处理速度影响很大。随着输出token的增加,KV Cache的大小会随之增加,占用更多内存。如果内存管理不善,如频繁的内存交换或KV Cache的丢弃和重复计算,会导致处理速度下降。

- 推理框架:不同的推理框架(如PyTorch、TensorFlow等)在性能上存在差异,优化后的推理框架可以提高模型的计算效率和内存利用率,从而提升token处理速度。此外,一些专门为推理设计的框架或工具,如TensorRT等,也可以通过对模型进行优化编译,加快token处理速度。

Logo

一座年轻的奋斗人之城,一个温馨的开发者之家。在这里,代码改变人生,开发创造未来!

更多推荐