
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
随着大语言模型规模不断增长,显存瓶颈成为微调大模型的最大难题。QLoRA(Quantized LoRA)作为结合了量化技术和低秩微调的创新方案,极大降低了显存占用,实现了资源有限设备上对超大模型的高效微调。

随着大规模 Transformer 模型(如 GPT、LLaMA、ViT)的广泛应用,微调大模型的计算和存储成本成为制约因素。LoRA 作为一种参数高效微调(PEFT)技术,通过低秩矩阵分解,仅微调增量部分,有效降低了资源消耗。本文将分步骤解析 LoRA 的训练原理及优势,帮助你快速掌握 LoRA 的核心机制。

随着大规模预训练模型不断增大,模型微调的资源需求和部署复杂度也急剧提升。LoRA(Low-Rank Adaptation)作为近年来高效微调的代表方案,因其在显存占用、训练效率和部署便捷性之间取得了平衡,迅速成为大模型微调的首选。

现在的大语言模型发展得非常快,从几亿参数到千亿参数,不仅模型越来越大,能力也越来越强。但是在实际工作中,我们很少会从零开始训练一个这样的巨无霸模型,因为那样的成本和资源需求实在太高了。更多的时候,我们会先用一个现成的强大模型,然后根据自己的需求对它做一些“微调”,让它更懂我们的领域、更符合我们的业务和价值观。微调并不是一开始就有这么多方法,它的技术路线也是一步步发展起来的。

在 Transformer 架构中,位置编码(Position Encoding)是理解序列顺序的关键机制。自从 Google 提出原始的 Sinusoidal 编码以来,研究者一直在探索更高效、可泛化的方式。RoPE(Rotary Positional Embedding) 就是在这一背景下被提出的,它已被广泛应用于大模型如 LLaMA、GPT-NeoX、Grok、ChatGLM 等,是现代 L

在大模型百家争鸣的时代,马斯克旗下的 AI 公司 xAI 于 2024 年 3 月 17 日正式开源 Grok-1 —— 这不仅是一次模型的放出,更是 xAI 在开源生态上的重大布局。本文将带你深入了解 Grok-1 的背景、技术架构、MoE 特性以及其在开源 LLM 生态中的意义。

尽管大语言模型已经具备了强大的语言生成能力,但它们在推理(reasoning)任务上仍有明显不足。预训练数据中缺乏结构化推理的明确信号,导致模型难以习得连贯、逻辑严谨的思维链条。为此,DeepSeek 团队提出了新的范式:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning。该工作以 D

随着 GPT-4、Gemini 等闭源模型不断突破性能天花板,开源社区也在持续迎头赶上。2024 年底,DeepSeek 团队发布了他们的旗舰大模型 —— DeepSeek-V3 Technical Report,提出一系列突破性优化:包括多 token 预测(MTP)目标、无辅助损失的负载均衡、FP8 训练等。

摘要: 本文是神经网络原理与实现系列的最后一篇,通过代码实践讲解如何从零构建一个识别手写数字的神经网络。文章首先介绍如何创建Network类,包括权重和偏置的随机初始化,以及前向传播的实现。随后详细解释了随机梯度下降(SGD)算法的实现步骤,包括数据打乱、小批量划分和参数更新。重点剖析了反向传播算法(backprop)在梯度计算中的核心作用,并通过代码展示了如何利用小批量数据迭代优化模型。所有代码

在大语言模型的竞赛中,闭源巨头们一路狂奔:GPT-4 展示出惊人的通用智能,Claude 与 Gemini 也在对话场景中崭露头角。然而,另一个维度的革命却悄然发生 ——开源模型正以惊人的速度崛起。在继承了初代 LLaMA 强大性能与开源精神的基础上,Meta 于 2023 年推出了 LLaMA 2,这不仅是一次模型能力的升级,更是一场关于 可控、安全、可用的开源 AI 的深刻变革。
