logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen3双模式原理调研

本文介绍了Qwen3模型的推理模式及其背后的技术原理。Qwen3支持两种推理模式:thinking mode和non-thinking mode。thinking mode基于Chain-of-Thought(CoT)技术,模型在生成最终答案前会输出中间推理步骤,提升推理质量;而non-thinking mode则直接生成答案,token更少,成本更低,但质量也相对较低。Qwen3通过分词器参数e

文章图片
#自然语言处理#人工智能#语言模型
Transformer (主要是Decoder) 计算量相关分析

对transformer做了一个不太全面的梳理,分析了下LLM自回归时每个token的计算量。

文章图片
#transformer#深度学习#人工智能
到底了