logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习的数学原理(三十五)—— Transformer 完整训练流程数值计算

在前面的文章中,我们分别完成了编码器(第 33 篇)和解码器(第 34 篇)的前向传播数值计算。但前向传播只是模型推理的一半,真正的学习发生在反向传播过程中——当我们把预测结果与真实标签比较,求出误差关于每个参数的梯度,然后沿着梯度方向更新参数,模型的预测才会一步步变准。本文的目标是:以的机器翻译为例,首次在专栏中完整手算 Transformer 的一轮训练迭代(前向 → 损失 → 反向 → 参数

文章图片
#深度学习#transformer#人工智能
深度学习的数学原理(三十一)—— Transformer前馈网络FFN(为什么要先升维再降维)

本文深入解析了Transformer模型中的前馈网络(FFN)子层,揭示了其与注意力机制的互补关系。FFN通过"升维-非线性激活-降维"的三步结构(公式为FFN(x)=max(0,xW1+b1)W2+b2),在保持输入输出维度一致的同时,显著提升了模型的特征表达能力。其中,ReLU激活函数引入非线性变换,升维操作(通常dff=4×dmodel)提供更丰富的特征空间,使模型能够拟

#深度学习#transformer#人工智能
深度学习的数学原理(十八)—— 视觉Transformer(ViT)

ViT通过将图像分块为序列并引入Transformer架构,突破了CNN的局部感受野限制。其核心设计包括:1)图像分块嵌入,将2D图像转为1D序列;2)类别嵌入实现全局信息聚合;3)多头自注意力机制建立像素间全局关联。与CNN相比,ViT的自注意力权重动态适应不同区域,计算复杂度为O(N²)。实验表明,ViT在CIFAR-10上展现出优于ResNet的性能,验证了Transformer在视觉任务中

文章图片
#深度学习#transformer#人工智能
深度学习的数学原理(六)—— 梯度消失与激活函数

摘要: 梯度消失是深度神经网络训练的核心问题,根源在于反向传播时链式法则的乘积项(激活函数导数×权重)随层数增加呈指数级衰减。以Sigmoid函数为例,其导数最大值仅0.25,多层叠加后梯度趋近于0,导致浅层参数无法更新。Tanh函数虽缓解了均值偏移问题,但依然存在梯度衰减。权重初始化不当(过大或过小)会进一步加剧梯度爆炸或消失。解决方案需从激活函数优化(如ReLU)和权重初始化策略入手,打破梯度

文章图片
#深度学习#人工智能
深度学习的数学原理(九)—— 神经网络为什么能学习特征?

在深度学习中,“特征”不是一个抽象概念,而是输入数据的某种可区分模式——对于图像任务(如MNIST手写数字识别),特征可以是像素的明暗差异、边缘、线段、拐角,甚至是数字的完整轮廓;对于文本任务,特征可以是词语的频次、语义关联。学习特征的核心目的,是将原始输入(如28×28的像素矩阵)映射为一组“更具区分度”的向量,让模型能轻松通过这组向量,区分不同类别的数据(如区分数字“0”和“1”)。

文章图片
#深度学习#神经网络#学习
深度学习的数学原理(三)—— 反向传播

本文摘要:文章深入解析神经网络的核心数学原理,重点介绍激活函数、交叉熵损失和反向传播机制。首先指出线性回归在处理非线性问题时的局限性,提出激活函数(如Sigmoid)通过非线性变换使网络能拟合复杂边界。然后分析交叉熵损失函数相比均方误差在分类问题中的优势,能更有效惩罚错误预测。最后详细推导反向传播过程,通过链式法则从输出层反向计算各层参数梯度,实现网络参数的优化调整。整个过程展现了神经网络如何通过

文章图片
#深度学习#人工智能
深度学习的数学原理(一)—— 一元线性回归

本文通过一元线性回归案例,系统阐述了神经网络作为通用函数逼近器的基本原理。文章详细推导了梯度下降算法的数学原理,包括损失函数定义、梯度计算和参数更新公式,并指出梯度下降通常只能求得近似解。通过Python代码实现,展示了数据生成、损失函数计算、梯度下降优化及可视化分析的全过程。实验部分对比了不同学习率对收敛效果的影响,并介绍了批量梯度下降、随机梯度下降和小批量梯度下降三种优化策略的特点。该案例以直

文章图片
#深度学习#回归#人工智能
从项目入手机器学习(六)—— 深度学习尝试

在进行深度学习之前,我们需要了解一下对于机器学习和深度学习来说,它们的处理方法有哪些不同。

文章图片
#机器学习#深度学习#人工智能
国科大高级人工智能期末复习(四)联结主义(下)——深度学习

本文总结了神经网络常见模型的核心要点:MLP通过多层非线性变换拟合复杂函数,单层感知机无法处理异或问题;BP神经网络通过反向传播优化参数,但面临梯度消失/爆炸等挑战;CNN通过卷积和池化提取特征,需掌握输出尺寸和参数计算方法;RNN采用编码器-解码器结构处理序列数据;GAN通过生成器和判别器的对抗训练生成逼真数据;ResNet利用残差连接解决深层网络退化问题;DBM通过逐层预训练和全局微调学习数据

文章图片
#人工智能#深度学习
深度学习的数学原理(五)—— 非线性与激活函数

摘要: 神经网络必须引入非线性激活函数,否则无论多少层都只能等效于单层线性网络,无法拟合复杂数据。线性关系(如y=2x)是固定比例的输出变化,而非线性关系(如y=x²)能灵活捕捉现实数据的复杂模式。激活函数(如Sigmoid、ReLU)通过曲线映射打破线性叠加的局限性,使多层网络具备真正的非线性表达能力。数学证明表明,无激活函数的深层网络输出始终可简化为Wx+B形式。代码实验对比显示:带ReLU的

文章图片
#深度学习#人工智能
    共 36 条
  • 1
  • 2
  • 3
  • 4
  • 请选择