logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LoRA rank 怎么选?r=8 和 r=64 差别到底有多大?

在使用 LoRA 微调大模型时,rank(r)几乎是最重要、也最容易被随意设置的超参数。r=8r=16,也有人一味追求“大力出奇迹”直接上r=64。LoRA 的 rank 到底在控制什么?r=8 和 r=64 的本质差别是什么?又该如何在实际工程中选择?本文将从原理、效果、显存与工程经验多个角度,帮你一次讲清楚。rank 决定了 LoRA 的“上限”,但性能更多取决于任务和数据。默认 r=8 或

LoRA、Adapter、Prefix Tuning 有什么本质区别?一文彻底讲清 PEFT 三大方案

摘要 本文系统对比了大模型微调中的三种高效参数微调方法(PEFT):LoRA、Adapter和Prefix Tuning。LoRA通过在权重空间中学习低秩增量实现微调,Adapter通过插入可训练子网络扩展结构,Prefix Tuning则通过操控注意力层的上下文记忆来引导模型。三者各具特点:LoRA参数少、兼容性好,Adapter表达能力更强,Prefix Tuning对原模型侵入性最低。

LoRA 为什么能缓解灾难性遗忘?从原理到大模型微调实战

在大模型微调中,“灾难性遗忘”几乎是绕不开的问题。为了解决这一痛点,成为了当前最主流、最有效的参数高效微调(PEFT)方案之一。本文将从灾难性遗忘的本质出发,深入解析 LoRA 的核心原理,并结合大模型微调实践,解释LoRA 为什么天生就能缓解灾难性遗忘,以及在实际工程中应如何正确使用。LoRA 之所以能缓解灾难性遗忘,并不是“训练技巧”,而是“结构设计上的优势”。不去改写记忆,而是为新知识单独开

KV Cache Offloading 到 CPU / NVMe,显存到底能省多少?一篇算清楚

本文定量分析了KV Cache Offloading技术在大模型推理中的显存优化效果。KV Cache在长上下文场景下会占用大量显存,通过将其部分卸载到CPU或NVMe可节省70%-95%的显存,但会带来带宽瓶颈、延迟增加和工程复杂度等代价。最适合用于显存紧张、长上下文、高并发的场景,结合INT8量化可进一步优化。该技术本质是以带宽和延迟换取显存容量,需要根据实际需求权衡使用。

KV Cache 量化后显存能省多少?一算就清楚的工程账本

摘要 KV Cache量化是当前大模型推理中优化显存占用的关键技术。分析表明,将KV Cache从FP16量化为INT8可减少50%显存,INT4则可减少75%。以LLaMA-7B为例,8k上下文下FP16需4GB显存,而INT8仅需2GB,INT4仅1GB。在高并发场景中,这种线性放大的显存节省直接影响系统吞吐量。工程实践显示INT8对模型效果几乎无影响,推荐优先采用;INT4需谨慎评估。主流框

#人工智能#算法
KV Cache 量化后显存能省多少?一算就清楚的工程账本

摘要 KV Cache量化是当前大模型推理中优化显存占用的关键技术。分析表明,将KV Cache从FP16量化为INT8可减少50%显存,INT4则可减少75%。以LLaMA-7B为例,8k上下文下FP16需4GB显存,而INT8仅需2GB,INT4仅1GB。在高并发场景中,这种线性放大的显存节省直接影响系统吞吐量。工程实践显示INT8对模型效果几乎无影响,推荐优先采用;INT4需谨慎评估。主流框

#人工智能#算法
一文算清 vLLM PagedAttention 的显存占用:KV Cache 到底吃多少显存?

本文详细分析了vLLM中PagedAttention的显存占用计算方法。文章指出PagedAttention并未改变KV Cache的单位token显存成本,而是优化了显存分配方式和利用效率。通过推导单token和单Block的显存计算公式,说明其核心优势在于仅对实际使用的token付费,而非预分配最大长度。文章还比较了传统KV Cache与PagedAttention的显存差异,讨论了Block

彻底搞懂 vLLM 的 PagedAttention:KV Cache 不再爆显存的秘密

vLLM通过创新的PagedAttention机制解决了大语言模型推理中的KV Cache管理难题。该技术借鉴操作系统分页思想,将KV Cache划分为固定大小的Block进行动态管理,实现了显存的高效利用。相比传统连续分配方式,PagedAttention显著降低了显存碎片,提升了并发处理能力,尤其适合长上下文和动态变化的服务场景。其核心在于解耦逻辑序列与物理存储,通过Block Table实现

彻底搞懂 vLLM 的 PagedAttention:KV Cache 不再爆显存的秘密

vLLM通过创新的PagedAttention机制解决了大语言模型推理中的KV Cache管理难题。该技术借鉴操作系统分页思想,将KV Cache划分为固定大小的Block进行动态管理,实现了显存的高效利用。相比传统连续分配方式,PagedAttention显著降低了显存碎片,提升了并发处理能力,尤其适合长上下文和动态变化的服务场景。其核心在于解耦逻辑序列与物理存储,通过Block Table实现

一文读懂 KV Cache:大模型推理速度暴涨的秘密武器

KV Cache是大语言模型推理优化的关键技术,它通过缓存历史token的注意力Key和Value,避免重复计算,显著提升推理速度。Transformer架构的自回归生成过程中,KV Cache将计算复杂度从O(n²)降至O(n),成为业界标配。虽然会占用显存,但其性能优势明显,支持流式输出和多轮对话。优化方案包括PagedAttention、量化压缩等。理解KV Cache原理对模型部署和推理优

    共 85 条
  • 1
  • 2
  • 3
  • 9
  • 请选择