
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在使用 LoRA 微调大模型时,rank(r)几乎是最重要、也最容易被随意设置的超参数。r=8r=16,也有人一味追求“大力出奇迹”直接上r=64。LoRA 的 rank 到底在控制什么?r=8 和 r=64 的本质差别是什么?又该如何在实际工程中选择?本文将从原理、效果、显存与工程经验多个角度,帮你一次讲清楚。rank 决定了 LoRA 的“上限”,但性能更多取决于任务和数据。默认 r=8 或
摘要 本文系统对比了大模型微调中的三种高效参数微调方法(PEFT):LoRA、Adapter和Prefix Tuning。LoRA通过在权重空间中学习低秩增量实现微调,Adapter通过插入可训练子网络扩展结构,Prefix Tuning则通过操控注意力层的上下文记忆来引导模型。三者各具特点:LoRA参数少、兼容性好,Adapter表达能力更强,Prefix Tuning对原模型侵入性最低。
在大模型微调中,“灾难性遗忘”几乎是绕不开的问题。为了解决这一痛点,成为了当前最主流、最有效的参数高效微调(PEFT)方案之一。本文将从灾难性遗忘的本质出发,深入解析 LoRA 的核心原理,并结合大模型微调实践,解释LoRA 为什么天生就能缓解灾难性遗忘,以及在实际工程中应如何正确使用。LoRA 之所以能缓解灾难性遗忘,并不是“训练技巧”,而是“结构设计上的优势”。不去改写记忆,而是为新知识单独开
本文定量分析了KV Cache Offloading技术在大模型推理中的显存优化效果。KV Cache在长上下文场景下会占用大量显存,通过将其部分卸载到CPU或NVMe可节省70%-95%的显存,但会带来带宽瓶颈、延迟增加和工程复杂度等代价。最适合用于显存紧张、长上下文、高并发的场景,结合INT8量化可进一步优化。该技术本质是以带宽和延迟换取显存容量,需要根据实际需求权衡使用。
摘要 KV Cache量化是当前大模型推理中优化显存占用的关键技术。分析表明,将KV Cache从FP16量化为INT8可减少50%显存,INT4则可减少75%。以LLaMA-7B为例,8k上下文下FP16需4GB显存,而INT8仅需2GB,INT4仅1GB。在高并发场景中,这种线性放大的显存节省直接影响系统吞吐量。工程实践显示INT8对模型效果几乎无影响,推荐优先采用;INT4需谨慎评估。主流框
摘要 KV Cache量化是当前大模型推理中优化显存占用的关键技术。分析表明,将KV Cache从FP16量化为INT8可减少50%显存,INT4则可减少75%。以LLaMA-7B为例,8k上下文下FP16需4GB显存,而INT8仅需2GB,INT4仅1GB。在高并发场景中,这种线性放大的显存节省直接影响系统吞吐量。工程实践显示INT8对模型效果几乎无影响,推荐优先采用;INT4需谨慎评估。主流框
本文详细分析了vLLM中PagedAttention的显存占用计算方法。文章指出PagedAttention并未改变KV Cache的单位token显存成本,而是优化了显存分配方式和利用效率。通过推导单token和单Block的显存计算公式,说明其核心优势在于仅对实际使用的token付费,而非预分配最大长度。文章还比较了传统KV Cache与PagedAttention的显存差异,讨论了Block
vLLM通过创新的PagedAttention机制解决了大语言模型推理中的KV Cache管理难题。该技术借鉴操作系统分页思想,将KV Cache划分为固定大小的Block进行动态管理,实现了显存的高效利用。相比传统连续分配方式,PagedAttention显著降低了显存碎片,提升了并发处理能力,尤其适合长上下文和动态变化的服务场景。其核心在于解耦逻辑序列与物理存储,通过Block Table实现
vLLM通过创新的PagedAttention机制解决了大语言模型推理中的KV Cache管理难题。该技术借鉴操作系统分页思想,将KV Cache划分为固定大小的Block进行动态管理,实现了显存的高效利用。相比传统连续分配方式,PagedAttention显著降低了显存碎片,提升了并发处理能力,尤其适合长上下文和动态变化的服务场景。其核心在于解耦逻辑序列与物理存储,通过Block Table实现
KV Cache是大语言模型推理优化的关键技术,它通过缓存历史token的注意力Key和Value,避免重复计算,显著提升推理速度。Transformer架构的自回归生成过程中,KV Cache将计算复杂度从O(n²)降至O(n),成为业界标配。虽然会占用显存,但其性能优势明显,支持流式输出和多轮对话。优化方案包括PagedAttention、量化压缩等。理解KV Cache原理对模型部署和推理优







