civi_he 个人主页

@civi_he

civi_he

2025-08-02 23:52:33 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型修炼之路

本文分享了在Windows 11系统下通过WSL运行Ubuntu来部署vLLM框架的经验。使用RTX 5060Ti 16GB显卡测试Qwen3-4B模型，显存占用约15GB，其中模型权重8GB，KV缓存5.6GB（基于40960上下文长度）。详细解释了GQA（Grouped Query Attention）机制如何通过多个Query头共享KV头来减少显存占用和计算量，相比传统MHA机制更高效。文章

#transformer #语言模型

大模型修炼之路

#transformer #语言模型

到底了