
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
LoRA(低秩适配)是一种高效的大模型微调方法,通过低秩分解矩阵实现参数高效更新。其核心思想是冻结原始权重,仅训练低秩分解矩阵A和B,显著降低显存占用(仅需更新0.1%-1%参数)。相比其他方法,LoRA具有推理开销小、兼容性好、部署方便等优势,特别适合大语言模型的指令微调、领域适配等场景。通过PyTorch实现时,只需在目标层添加可训练的低秩矩阵,保持原始模型结构不变。LoRA现已成为最流行的参

AdapterTuning是一种高效的大模型微调方法,通过在Transformer层间插入小型Adapter模块(降维-激活-升维结构)实现参数高效调优。相比全参数微调,它仅需训练1-3%参数;相比Prompt方法,能直接调整模型内部表征。核心优势包括参数效率高、支持多任务切换、迁移性强,常与LoRA等方法结合使用。典型实现是在FeedForward层后添加包含残差连接的瓶颈MLP模块,保持主干参

Prefix-Tuning是一种高效的大模型微调方法,通过在各层注意力机制中嵌入可学习的前缀向量(PK/PV),实现仅训练少量参数(1%)即可引导模型输出。相比全参数微调,它显著降低计算开销;相较于PromptTuning,其在生成任务中表现更优。核心原理是将前缀拼接至Key/Value矩阵,使模型隐含记忆特定信息。实验表明,Prefix-Tuning在GPT-2/3等生成任务中接近全参数微调效果

P-tuningv2是一种高效的大模型微调方法,通过在所有Transformer层注入可学习前缀向量来提升性能。相比P-tuningv1,它简化了实现(去除了BiLSTM/MLP编码器),在各类NLP任务上效果接近全参数微调,同时仅需微调0.1%-1%的参数。该方法在注意力层的Key/Value前添加可学习前缀,实现了多层信息注入,在GLUE等基准测试中表现优异,成为后续参数高效微调方法的基础。

P-tuning是华为诺亚方舟实验室提出的大模型微调方法,通过引入可微分提示编码器改进PromptTuning的局限性。其核心是训练小型神经网络(如BiLSTM/MLP)动态生成提示表示,而非直接优化静态向量。方法流程包括:初始化虚拟token、编码器处理、拼接输入和下游任务训练。相比PromptTuning,P-tuning具有参数高效、表达力强、任务适配性好和收敛快等优势,适用于文本分类、信息

PromptTuning是一种参数高效微调(PEFT)方法,通过冻结预训练大模型参数,仅在输入端添加可学习的提示向量(soft prompt)来适应下游任务。相比传统全参数微调,它极大减少了训练参数(<0.1%),存储开销低且兼容性好,但表达能力有限,适合简单任务。方法通过联合训练优化提示向量,初始化可随机或从词表选取。与PrefixTuning、LoRA等方法相比,PromptTuning

本文介绍了Llama3采用的前馈网络激活函数SwiGLU。作为GLU系列的最新变体,SwiGLU通过门控机制(Swish激活)实现信息的动态调节,相比传统ReLU/GELU具有更平滑的梯度和更强的表达能力。文章详细解析了SwiGLU的数学形式和Llama3中的实现方式,指出其计算效率高、训练稳定的优势,成为大模型FFN层的理想选择。Meta实验证实SwiGLU能显著提升语言建模性能,因此被Llam

摘要:KVCache是一种用于加速Transformer模型推理的技术,通过缓存历史token的Key/Value向量避免重复计算。在自回归生成过程中,KVCache将计算复杂度从O(T²)降至O(T),显著提升推理效率。Llama3对KVCache进行了多项优化,包括高效缓存布局、动态长度支持、分块机制和显存优化等,使其能更好支持长上下文推理。该技术通过存储中间状态,解决了传统Transform

Llama3采用的Grouped Multi-Query Attention(分组多查询注意力)是一种优化的注意力机制。它在标准多头注意力(MHA)和极简的多查询注意力(MQA)之间取得平衡,将多个查询头分成若干组,每组共享相同的键/值投影。这种设计显著减少了KV缓存(KVCache)的存储需求,从与头数线性相关降至与组数相关,大幅降低了推理时的内存带宽压力。实验表明,GQA在保持模型表达能力的同

本文介绍了大模型中的归一化方法,重点讲解了Llama3采用的RMSNorm技术。首先阐述了归一化的作用(稳定训练、加快收敛、提高泛化),比较了BatchNorm、LayerNorm和RMSNorm的特性。详细解析了RMSNorm原理,相比LayerNorm去除了均值计算,仅保留尺度归一化,具有计算高效、梯度稳定等优势。最后展示了Llama3中RMSNorm的PyTorch实现代码,并指出这是Lla
