上善若水，不渡不行个人主页

@2501_94232062

上善若水，不渡不行

2026-03-23 21:24:37 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

关于 Parameter-Efficient Fine-Tuning（PEFT）的课题调研报告

摘要：针对大模型下游任务适配中全量微调成本高和LoRA方法存在天花板的问题，三篇论文提出了创新解决方案。RaLo通过范数约束和稀疏促进实现各层秩的自适应分配；RDPLoRA利用RDP算法选择关键层进行适配，显著提升效率；GateRA引入token级门控机制动态调整微调强度。这些方法从秩分配、层选择和token权重三个维度优化LoRA，理论上可组合使用。当前研究已从"能否微调"转

#人工智能 #深度学习 #机器学习

InstructGPT，Chain of Thought，Llama 3.1论文笔记

本文摘要介绍了三个重要的大语言模型技术进展：1. InstructGPT通过人类反馈强化学习（RLHF）实现模型对齐，采用监督微调、奖励模型和PPO优化三阶段流程，显著提升了模型的3H属性（有用性、诚实性、无害性）。2. 思维链提示（CoT）通过展示中间推理步骤激活大模型逻辑能力，结合自一致性技术（多路径推理投票）缓解幻觉问题。3. Llama3.1采用旋转位置编码（RoPE）和分组查询注意力等技

#数据挖掘 #人工智能 #算法

ResNet 和 Transformer 的论文阅读笔记

本文对比分析了计算机视觉和自然语言处理领域的两大里程碑模型：ResNet和Transformer。ResNet通过残差连接解决了深层网络退化问题，使训练超深度网络成为可能，在ImageNet等任务上取得突破性成果。Transformer则完全基于自注意力机制，摒弃了RNN/CNN结构，实现了高度并行化处理，为NLP任务带来革命性进步。两种架构虽针对不同领域，但都通过创新设计解决了各自领域的关键瓶颈

#transformer #论文阅读

GPT 系列论文精读笔记

GPT系列模型的发展展现了从监督学习到通用智能的进化路径。GPT-1（2018）首创"预训练+微调"范式，使用1.5亿参数验证了Transformer解码器的有效性；GPT-2（2019）突破性地提出零样本学习，通过15亿参数证明语言模型可作为多任务学习器；GPT-3（2020）以1750亿参数实现情境学习，仅需少量示例就能适应新任务。三者的技术演进呈现出明显的规模效应：模型容

ResNet 和 Transformer 的原始论文阅读——Attention Is All You Need笔记

《Transformer：基于注意力机制的序列建模新范式》摘要：本文解析了2017年提出的Transformer模型，该模型彻底摒弃了传统RNN/CNN架构，完全基于注意力机制构建。核心创新包括：1）采用多头自注意力机制实现任意位置间的直接关联，以恒定计算复杂度(O(1))解决长距离依赖问题；2）通过位置编码注入序列顺序信息；3）模块化设计（编码器-解码器结构、残差连接、层归一化）实现高效并行

#transformer #论文阅读

大模型框架——第三节：神经网络基础

神经网络是受生物神经元启发的人工智能模型，由输入层、隐藏层和输出层组成。其核心在于通过加权求和、偏置项和激活函数（如Sigmoid、Tanh、ReLU）实现非线性变换。训练过程包括前向传播计算损失（MSE用于回归，交叉熵用于分类），反向传播计算梯度，以及通过SGD等优化器更新参数。Word2Vec通过CBOW和Skip-gram模型学习词向量，利用负采样提高效率。RNN及其改进模型（GRU、LST

#神经网络 #人工智能 #深度学习

大模型框架——第一节：自然语言处理基础

本文介绍了自然语言处理(NLP)的基础任务和应用。基础任务包括词性标注、命名实体识别、共指消解和依存关系分析。在应用方面，重点阐述了搜索引擎和在线广告中的文本匹配、PageRank算法等技术。文章详细探讨了四种词表示方法：同义词/上义词表示、one-hot表示、上下文分布表示和分布式表示(如Word2Vec)，分析了各种方法的优缺点。最后简要介绍了语言模型的概念及其概率预测功能。这些技术为NLP的

#自然语言处理 #人工智能

到底了