logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型基础 | dropout机制

Dropout机制摘要 Dropout是一种有效的神经网络正则化技术,通过随机"丢弃"部分神经元(概率p)来防止过拟合。其核心原理包括:1)作为模型集成方法,训练多个子网络;2)减少神经元依赖,增强特征鲁棒性。训练时需引入1/(1-p)的缩放因子保持期望一致,但会增大方差。AlphaDropout通过仿射变换调整丢弃值,保持数据统计特性。这种机制简单高效,能显著提升模型泛化能力

文章图片
#自然语言处理#transformer#nlp +4
大模型基础 | dropout机制

Dropout机制摘要 Dropout是一种有效的神经网络正则化技术,通过随机"丢弃"部分神经元(概率p)来防止过拟合。其核心原理包括:1)作为模型集成方法,训练多个子网络;2)减少神经元依赖,增强特征鲁棒性。训练时需引入1/(1-p)的缩放因子保持期望一致,但会增大方差。AlphaDropout通过仿射变换调整丢弃值,保持数据统计特性。这种机制简单高效,能显著提升模型泛化能力

文章图片
#自然语言处理#transformer#nlp +4
大模型基础 | Transformer性能优化之LinearAttention

本文探讨了Transformer模型中的线性注意力机制,旨在解决传统自注意力计算复杂度随序列长度呈平方级增长的问题。通过分析矩阵乘法时间复杂度,文章指出传统注意力计算QK^T的复杂度为O(n²d),而K^TV计算复杂度仅为O(nd²)。线性注意力的核心思想是改变计算顺序,利用核函数将注意力重写为ϕ(Q)(ϕ(K)^Tϕ(V)),将总体复杂度降低到O(nd²)。这种线性化方法显著提升了模型处理长序列

文章图片
#transformer#深度学习#人工智能 +3
大模型基础 | Transformer性能优化之LinearAttention

本文探讨了Transformer模型中的线性注意力机制,旨在解决传统自注意力计算复杂度随序列长度呈平方级增长的问题。通过分析矩阵乘法时间复杂度,文章指出传统注意力计算QK^T的复杂度为O(n²d),而K^TV计算复杂度仅为O(nd²)。线性注意力的核心思想是改变计算顺序,利用核函数将注意力重写为ϕ(Q)(ϕ(K)^Tϕ(V)),将总体复杂度降低到O(nd²)。这种线性化方法显著提升了模型处理长序列

文章图片
#transformer#深度学习#人工智能 +3
大模型基础 | 第四章Transformer性能优化之SparseAttention

本文系统介绍了Transformer模型中的稀疏注意力机制及其优化方法。针对标准自注意力机制在处理长序列时存在的O(n²)计算复杂度问题,提出了三种优化方案:膨胀自注意力通过周期性采样保持全局感知,局部自注意力聚焦固定窗口实现线性复杂度,混合稀疏注意力结合二者优势形成"局部紧密+远程稀疏"模式。这些方法通过打破全局关联假设,在计算效率与表达能力间取得平衡,有效解决了长序列处理中

文章图片
#transformer#深度学习#人工智能 +3
大模型基础 | 第三章 Transformer介绍

本章系统性地解析了Transformer模型的核心架构与关键机制,揭示了其作为现代大语言模型基石的深层原理。Transformer由谷歌于2017年在《Attention Is All You Need》论文中提出,凭借其完全基于注意力机制的创新设计,彻底改变了自然语言处理领域的格局,成为BERT、Llama等主流模型的核心组件。

#transformer#深度学习#人工智能 +3
大模型基础 | 第一章 token词典

在自然语言处理中,OOV(未登录词)问题是分词与语言建模的关键挑战。现代模型主要采用三种分词单位:Word分词(语义清晰但易导致大词表)、Char分词(避免OOV但语义弱)和Subword分词(主流方案)。基于Transformer的模型使用三种子词分词器:BPE(迭代合并高频字符对)、WordPiece(基于似然值最大化合并)和Unigram(反向构建词表)。这些Subword方法有效平衡了语义

#自然语言处理#transformer#nlp +2
大模型基础 | 第二章 词典的位置编码

本文探讨了Transformer模型中位置编码的关键作用与方法。首先指出Transformer自注意力机制无法区分词序,导致语义理解困难。主流解决方案包括:1)绝对位置编码(BERT采用的可训练参数法);2)相对位置编码(RoPE通过旋转矩阵融入位置信息,ALiBi利用线性偏置建模距离)。特别分析了RoPE的优势与周期性缺陷,并介绍YaRN的分段调整方法改进外推能力。最终比较显示,相对位置编码(如

#自然语言处理#transformer#nlp +2
到底了