
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
Qwen3双模式原理调研
本文介绍了Qwen3模型的推理模式及其背后的技术原理。Qwen3支持两种推理模式:thinking mode和non-thinking mode。thinking mode基于Chain-of-Thought(CoT)技术,模型在生成最终答案前会输出中间推理步骤,提升推理质量;而non-thinking mode则直接生成答案,token更少,成本更低,但质量也相对较低。Qwen3通过分词器参数e

Transformer (主要是Decoder) 计算量相关分析
对transformer做了一个不太全面的梳理,分析了下LLM自回归时每个token的计算量。

到底了