
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
大模型微调与LoRA原理深度解析
维度核心结论原理LoRA 利用权重更新的低秩性,用BABABA两个小矩阵近似ΔW\Delta WΔW效率可训练参数仅占全量的 0.01%-0.1%,显存需求降低 3-5×效果rrr=8 即可达到全量微调 95%+ 的性能推理零开销——BABABA可融合进W0W_0W0,部署与原始模型完全一致生态QLoRA、AdaLoRA、DoRA 等方法持续扩展 LoRA 的能力边界LoRA 的优雅之处在于:它

RAG原理讲解
RAG(Retrieval-Augmented Generation,检索增强生成)是一种将外部知识检索与大语言模型(LLM)生成能力相结合的技术架构。在让 LLM 回答之前,先从知识库中检索出相关的参考资料,然后把问题和参考资料一起喂给 LLM,让它基于事实来回答。Embedding 是将文本映射到高维向量空间的技术。语义相近的文本在向量空间中距离更近。"苹果是一种水果" → [0.12, -0

第一章 大模型的本质
你可能会问:为什么要这么麻烦?为什么不能直接输出完整的句子?语言太复杂了。一个问题可能有无数种合理的回答。如果让模型一次性输出完整答案,它需要同时考虑所有可能的组合——这个计算量是天文数字。但如果我们把问题简化成"给定前面的内容,下一个字是什么",问题就变得可控了。每一步只需要从几万个候选字里选一个最合适的。这种"一步一步来"的生成方式,有个专业术语叫Autoregressive(自回归)——模型
到底了







