logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

以 Qwen3-4B-Thinking-2507 为例 理解大模型的显存占用

本文深入分析了大语言模型显存占用的三大核心因素:模型权重、KV缓存和临时工作空间。以Qwen3-4B-Thinking-2507为例,4B参数模型INT4量化后约2GB,但4K上下文长度的KV缓存就需1.5GB(FP16精度),加上约1GB的工作空间,总显存需求达4.5GB。关键发现是KV缓存随上下文长度线性增长(每token384KB),这是显存占用的主要瓶颈。优化建议包括缩短上下文、使用INT

#AI
在 Windows WSL2 环境下部署京东智能体框架

本文介绍了在Windows WSL2环境下部署京东智能体框架的全过程。基于Windows+Docker Desktop+WSL2方案,详细记录了从基础环境准备到项目模块部署的完整流程。重点解决了三大技术问题:1) 通过更换阿里云源解决apt 502报错;2) 前端构建时规避TS未使用变量警告;3) Python工具链采用uv管理依赖并配置清华源。最终实现了包含前端(Node+Vite)、后端(Sp

#windows
在 Windows WSL2 环境下部署京东智能体框架

本文介绍了在Windows WSL2环境下部署京东智能体框架的全过程。基于Windows+Docker Desktop+WSL2方案,详细记录了从基础环境准备到项目模块部署的完整流程。重点解决了三大技术问题:1) 通过更换阿里云源解决apt 502报错;2) 前端构建时规避TS未使用变量警告;3) Python工具链采用uv管理依赖并配置清华源。最终实现了包含前端(Node+Vite)、后端(Sp

#windows
Java中的锁各类解析

锁类型优点缺点常见应用场景典型使用结构自旋锁减少线程上下文切换开销浪费 CPU 资源(自旋时间长时)持有锁时间短的场景,如短时间内获取锁的操作无特定知名结构广泛应用,可自定义实现可重入锁支持同一线程多次获取锁,避免死锁,简化复杂同步逻辑无明显特定缺点,相比简单锁实现稍复杂递归调用且涉及共享资源访问,复杂同步逻辑实现类乐观锁提高多读少写场景的并发读性能,高性能且低冲突场景表现佳冲突处理不当可能导致重

文章图片
#java#开发语言
到底了