低秩适应(LoRA)：大模型参数高效微调的终极指南

文章介绍了低秩适应(LoRA)技术，一种通过低秩矩阵分解实现参数高效微调的方法。LoRA仅需训练少量低秩参数，就能使大模型在特定任务上表现优异，大幅降低微调资源门槛。文章详细解释了低秩矩阵的数学原理、LoRA的微调策略设计、秩的选取方法以及微调矩阵与原权重矩阵的关系。相比全量微调，LoRA具有多任务服务、快速迭代、存储优化和推理无开销等显著优势。

AI-椰子不椰

403人浏览 · 2025-12-16 15:31:50

AI-椰子不椰 · 2025-12-16 15:31:50 发布

低秩适应（LoRA，Low-Rank Adaptation ）是参数高效微调（PEFT, Parameter-Efficient Fine-Tuning）领域的重要技术之一。它打破传统全量微调的局限，只对模型中少量参数进行调整，就能让模型在特定任务上表现出色，大大降低了大模型在不同任务适配过程中的资源门槛。本节主要介绍：

1）矩阵中的秩和低秩矩阵相乘的有效性
2）利用低秩矩阵相乘，LoRA 的微调策略设计
3）LoRA如何选取秩 r 大小，微调矩阵和原权重矩阵之间关系

1，矩阵中的秩

1.1，低秩矩阵相乘的秩上限

秩的定义：矩阵中线性无关的行或列的最大数量

直观理解：矩阵的"信息密度"或"表达能力"。例如一个3×3的单位矩阵，秩为3，因为它有3个线性无关的向量

两矩阵相乘的秩：

假设矩阵 A 是一个m×r的低秩矩阵（秩为 r），矩阵 B 是一个r×n的低秩矩阵（秩为 r），则它们的乘积 C=A×B 是一个m×n的矩阵。根据线性代数的性质，乘积矩阵 C 的秩不超过 A 和 B 的秩的最小值，即rank(C) ≤ min(rank(A), rank(B)) = r。

而满秩矩阵的秩等于其行数或列数，如m×n满秩矩阵的秩为min(m,n)。若r < min(m,n)，则 C 的秩必然小于满秩矩阵的秩，因此无法精确等价于满秩矩阵。

1.2，低秩矩阵相乘的有效性

问题： 两低秩矩阵相乘，是否可以近似于一个满秩矩阵的表示效果？

结论：低秩近似具有有效性，但无法完全等价。

但在很多任务中，矩阵的 “核心信息” 往往集中在低秩分量中。如：

• 图像、文本等数据的特征矩阵中，大部分有价值的信息可通过低秩矩阵捕捉，冗余信息（高秩分量）对结果影响较小；
• 大模型的权重更新矩阵，微调时的，本身具有 “低秩特性”，所以模型适应新任务时，权重的变化不需要满秩矩阵来描述，核心变化可通过低秩矩阵近似。

因此，用两个低秩矩阵 A×B（秩为 r）近似满秩矩阵 W 时，只要 r 选择得当，比如 r 远小于 W 的维度但能覆盖核心变化，就能以极小的误差逼近 W 的效果，同时大幅减少参数数量（从m×n降至m×r + r×n）。

小结：

受限于秩的数学性质，两个低秩矩阵相乘无法精确表示满秩矩阵，但在实际任务中，通过合理选择低秩维度 r，能够以较小的误差逼近满秩矩阵的核心信息，满足模型微调等场景的需求。这也是低秩适应技术在大模型优化中广泛应用的核心原因。

2，LoRA微调策略

• 传统的全量微调策略

预训练好的模型，其权重矩阵为，维度是。全量微调的目标是学习一个参数更新量，使得模型在新的任务数据上表现更好，即优化后的权重矩阵为。但全量微调时，的参数量和一样庞大，计算成本极高。

此外，大模型权重更新具有“低内在秩”的特征，并非所有的参数都需要调整，更新方向集中在少数主要成分上。因此LoRA通过低秩分解来模拟参数的改变量。

• LoRA 权重更新量分解

假设参数更新矩阵可以分解为两个低秩矩阵 A 和 B乘积。即 A 的维度为，B的维度为，其中r远小于d（r≪d）。这样，权重更新量，最终优化后的权重矩阵变为。

更进一步，对于输入向量，传统线性层输出为，使用 LoRA 后输出变为。这里，AB 就像是在原有模型基础上添加的一个 “调节项”，通过训练低秩矩阵A 和 B，让这个调节项能够捕捉到新任务的关键信息，同时不改变原模型的主体结构和知识。

从参数量对比，原来直接更新的参数量是，而采用 LoRA 后， A 和 B 的总参数量为，当 r 取值较小时，参数量大幅减少。

在实际训练过程中，固定预训练权重，仅对 A 和 B进行训练，通过反向传播算法计算损失函数对 A 和 B的梯度，进而更新它们的参数，使模型在新任务上的性能不断提升。

图1，LoRA 微调训练示意图。

3，LoRA微调相关问题

3.1，模型中那部分参数应该使用LoRA

表1，对自注意力中不同的参数进行微调的效果。

在大模型的自注意力层，可训练的参数有四个，通过变化矩阵的秩 r，保持可微调的参数总量为18M，分别在两个任务上进行测试。从实验结果上看，当r=4时，仅对矩阵微调后效果最优，当r=2时，对四个矩阵微调，效果最优。

部分原因： 自注意力计算过程中，查询矩阵用于计算输入序列每个位置的查询向量，它决定了当前位置对其他位置信息的关注程度；值矩阵则用于生成值向量，这些值向量是注意力机制最终输出的重要组成部分。

结论：

仅对查询矩阵和值矩阵进行 LoRA 微调，模型在下游任务中的表现与全量微调效果相近，而计算成本却大幅降低。相比之下，若仅对单个参数进行 LoRA 微调，模型性能提升不明显，这进一步验证了 LoRA 在自注意力模块特定矩阵应用的有效性和针对性。

3.2，微调矩阵的秩如何选取

表2，秩大小对准确率的影响。

在两种不同的任务上，分别设置三组对照实验，矩阵的秩从 1到64。实验发现在参数矩阵，进行LoRA微调，即使矩阵的秩 r=1也取得了和大秩矩阵 r=64 一样的效果。表明在可微调的参数矩阵中，存在内在秩“intrinsic rank”的假设，表明较小的秩也可以充分的表示模型中突出信息，增大矩阵秩 r 并没有覆盖到矩阵中有用的信息。

如果将秩r=8的矩阵和r=64的矩阵投影到子空间，发现两个矩阵，在顶1个奇异向量的子空间相似度显著，而第二个及以后迅速下降，说明权重更新的最核心方向具有高度的一致性。更进一步说明，低秩矩阵已经能覆盖微调任务的“核心维度”，不断增加秩，并不能显著的拓展有效子空间，反而引入冗余噪声。

结论： 在参数上进行微调，使用较小的秩，可使可训练参数最少，同时效果最优。

3.3，微调矩阵和权重矩阵W的关系

表3，微调矩阵和权重矩阵存在一定的放大关系。

我们通过计算将 W 投影到的 r 维子空间中，得到实验结果，总结有以下结论。

• 相关性更强：LoRA 中的微调矩阵与预训练权重矩阵 W 的相关性显著高于随机矩阵，说明并非随机扰动，而是针对性地作用于 W 中已有的特征。
• 方向特异性：不重复 W 中已突出的主要特征方向，而是放大 W 中被忽略但对下游任务重要的方向，实现 “精准增强”。
• 显著放大效应：当低秩维度 r 较小时（如 r=4），对目标方向的放大倍数极大（6.91/0.32约 21.5 倍），且随 r 增大（如 r=64）放大效应减弱，体现了低秩设计的高效性。

4，总结

相比于全量的参数微调，使用LoRA 进行模型微调，主要有以下的优势。

• 多任务服务：一个基础模型 + 多个LoRA适配器。实现基础模型的共享。
• 快速迭代：新任务只需训练少量参数，就可以达到理想的效果。
• 存储优化：LoRA权重仅需几MB到几十MB.
• 推理无开销：可合并权重，保持原始推理速度。

微调方式	参数量	显存占用	训练速度	存储开销
全参数微调	100%	高	慢	每个任务完整模型
LoRA微调	0.01%~1%	极低	快	基础模型 + 小量LoRA权重

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200% ，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

在这里插入图片描述

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

在这里插入图片描述

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

在这里插入图片描述

北京朝阳AI社区

更多推荐

硅谷可控大模型智能体 AI 关键技术

北京朝阳AI社区

GRPO不香了？小米ICPO横空出世，专治大模型“不会思考”，推理能力飙升！

北京朝阳AI社区

AgentScope x RocketMQ：打造企业级高可靠 A2A 智能体通信基座

本文将为您介绍 Apache RocketMQ 全新推出的轻量级通信模型 LiteTopic，如何在 AI 应用场景中有效简化系统架构、提升稳定性与可靠性，并结合 A2A（Agent-to-Agent）协议与阿里巴巴 AgentScope 框架的生产实践案例，深入剖析面向智能体通信的落地实践与技术实现。