pk3725069 个人主页

@pk3725069

pk3725069

2025-01-23 11:49:15 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型基础 | dropout机制

Dropout机制摘要 Dropout是一种有效的神经网络正则化技术，通过随机"丢弃"部分神经元(概率p)来防止过拟合。其核心原理包括：1)作为模型集成方法，训练多个子网络；2)减少神经元依赖，增强特征鲁棒性。训练时需引入1/(1-p)的缩放因子保持期望一致，但会增大方差。AlphaDropout通过仿射变换调整丢弃值，保持数据统计特性。这种机制简单高效，能显著提升模型泛化能力

#自然语言处理 #transformer #nlp +4

大模型基础 | dropout机制

#自然语言处理 #transformer #nlp +4

大模型基础 | Transformer性能优化之LinearAttention

本文探讨了Transformer模型中的线性注意力机制，旨在解决传统自注意力计算复杂度随序列长度呈平方级增长的问题。通过分析矩阵乘法时间复杂度，文章指出传统注意力计算QK^T的复杂度为O(n²d)，而K^TV计算复杂度仅为O(nd²)。线性注意力的核心思想是改变计算顺序，利用核函数将注意力重写为ϕ(Q)(ϕ(K)^Tϕ(V))，将总体复杂度降低到O(nd²)。这种线性化方法显著提升了模型处理长序列

#transformer #深度学习 #人工智能 +3

大模型基础 | Transformer性能优化之LinearAttention

#transformer #深度学习 #人工智能 +3

大模型基础 | 第四章Transformer性能优化之SparseAttention

本文系统介绍了Transformer模型中的稀疏注意力机制及其优化方法。针对标准自注意力机制在处理长序列时存在的O(n²)计算复杂度问题，提出了三种优化方案：膨胀自注意力通过周期性采样保持全局感知，局部自注意力聚焦固定窗口实现线性复杂度，混合稀疏注意力结合二者优势形成"局部紧密+远程稀疏"模式。这些方法通过打破全局关联假设，在计算效率与表达能力间取得平衡，有效解决了长序列处理中

#transformer #深度学习 #人工智能 +3

大模型基础 | 第三章 Transformer介绍

本章系统性地解析了Transformer模型的核心架构与关键机制，揭示了其作为现代大语言模型基石的深层原理。Transformer由谷歌于2017年在《Attention Is All You Need》论文中提出，凭借其完全基于注意力机制的创新设计，彻底改变了自然语言处理领域的格局，成为BERT、Llama等主流模型的核心组件。

#transformer #深度学习 #人工智能 +3

大模型基础 | 第一章 token词典

在自然语言处理中，OOV（未登录词）问题是分词与语言建模的关键挑战。现代模型主要采用三种分词单位：Word分词（语义清晰但易导致大词表）、Char分词（避免OOV但语义弱）和Subword分词（主流方案）。基于Transformer的模型使用三种子词分词器：BPE（迭代合并高频字符对）、WordPiece（基于似然值最大化合并）和Unigram（反向构建词表）。这些Subword方法有效平衡了语义

#自然语言处理 #transformer #nlp +2

大模型基础 | 第二章词典的位置编码

本文探讨了Transformer模型中位置编码的关键作用与方法。首先指出Transformer自注意力机制无法区分词序，导致语义理解困难。主流解决方案包括：1)绝对位置编码（BERT采用的可训练参数法）；2)相对位置编码（RoPE通过旋转矩阵融入位置信息，ALiBi利用线性偏置建模距离）。特别分析了RoPE的优势与周期性缺陷，并介绍YaRN的分段调整方法改进外推能力。最终比较显示，相对位置编码（如

#自然语言处理 #transformer #nlp +2

到底了