mg240012 个人主页

@mg240012

mg240012

2026-04-13 17:37:30 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型微调与LoRA原理深度解析

维度核心结论原理LoRA 利用权重更新的低秩性，用BABABA两个小矩阵近似ΔW\Delta WΔW效率可训练参数仅占全量的 0.01%-0.1%，显存需求降低 3-5×效果rrr=8 即可达到全量微调 95%+ 的性能推理零开销——BABABA可融合进W0W_0W0，部署与原始模型完全一致生态QLoRA、AdaLoRA、DoRA 等方法持续扩展 LoRA 的能力边界LoRA 的优雅之处在于：它

#transformer #人工智能 #深度学习

RAG原理讲解

RAG（Retrieval-Augmented Generation，检索增强生成）是一种将外部知识检索与大语言模型（LLM）生成能力相结合的技术架构。在让 LLM 回答之前，先从知识库中检索出相关的参考资料，然后把问题和参考资料一起喂给 LLM，让它基于事实来回答。Embedding 是将文本映射到高维向量空间的技术。语义相近的文本在向量空间中距离更近。"苹果是一种水果" → [0.12, -0

#人工智能 #python #fastapi

第一章大模型的本质

你可能会问：为什么要这么麻烦？为什么不能直接输出完整的句子？语言太复杂了。一个问题可能有无数种合理的回答。如果让模型一次性输出完整答案，它需要同时考虑所有可能的组合——这个计算量是天文数字。但如果我们把问题简化成"给定前面的内容，下一个字是什么"，问题就变得可控了。每一步只需要从几万个候选字里选一个最合适的。这种"一步一步来"的生成方式，有个专业术语叫Autoregressive（自回归）——模型

#python #人工智能 #transformer

到底了