
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
大模型修炼之路
本文分享了在Windows 11系统下通过WSL运行Ubuntu来部署vLLM框架的经验。使用RTX 5060Ti 16GB显卡测试Qwen3-4B模型,显存占用约15GB,其中模型权重8GB,KV缓存5.6GB(基于40960上下文长度)。详细解释了GQA(Grouped Query Attention)机制如何通过多个Query头共享KV头来减少显存占用和计算量,相比传统MHA机制更高效。文章
大模型修炼之路
本文分享了在Windows 11系统下通过WSL运行Ubuntu来部署vLLM框架的经验。使用RTX 5060Ti 16GB显卡测试Qwen3-4B模型,显存占用约15GB,其中模型权重8GB,KV缓存5.6GB(基于40960上下文长度)。详细解释了GQA(Grouped Query Attention)机制如何通过多个Query头共享KV头来减少显存占用和计算量,相比传统MHA机制更高效。文章
到底了







