logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型修炼之路

本文分享了在Windows 11系统下通过WSL运行Ubuntu来部署vLLM框架的经验。使用RTX 5060Ti 16GB显卡测试Qwen3-4B模型,显存占用约15GB,其中模型权重8GB,KV缓存5.6GB(基于40960上下文长度)。详细解释了GQA(Grouped Query Attention)机制如何通过多个Query头共享KV头来减少显存占用和计算量,相比传统MHA机制更高效。文章

#transformer#语言模型
大模型修炼之路

本文分享了在Windows 11系统下通过WSL运行Ubuntu来部署vLLM框架的经验。使用RTX 5060Ti 16GB显卡测试Qwen3-4B模型,显存占用约15GB,其中模型权重8GB,KV缓存5.6GB(基于40960上下文长度)。详细解释了GQA(Grouped Query Attention)机制如何通过多个Query头共享KV头来减少显存占用和计算量,相比传统MHA机制更高效。文章

#transformer#语言模型
到底了