logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习的数学原理(四十一)—— KV Cache

本文探讨了Transformer模型在推理阶段使用KV Cache的必要性及其优化效果。KV Cache通过缓存历史token的Key和Value向量,避免了自回归生成时的重复计算。分析表明,无Cache时计算复杂度为O(T³),而使用KV Cache后降至O(T²),在序列长度T=2048时可实现约2000倍加速。通过具体数值例子对比,展示了KV Cache如何减少50%的投影计算和57%的注意

文章图片
#深度学习#人工智能
深度学习的数学原理(三十九)—— Transformer 数学全景图

第 1 层:概念 第 23-32 篇└── 逐个学习 Transformer 组件的数学原理(注意力、FFN、LN、Adam 等 10 个独立概念)第 2 层:数值 第 33-35 篇└── 用极小型模型(d_model=4)手算每个组件的输入输出(从 10 个概念到 3 个完整流程:编码器→解码器→训练)第 3 层:代码 第 36-38 篇└── 用 PyTorch 实现完整 Transform

文章图片
#深度学习#transformer#人工智能
深度学习的数学原理(三十八)—— Transformer 完整训练代码实战

本文通过训练一个小型Transformer模型(13万参数)进行中英翻译任务,观察参数从随机初始化到有序化的学习过程。模型在800句对的小数据集上训练3000步,设置8个检查点记录关键指标。结果显示:训练初期(前500步)模型有效学习,验证损失同步下降;随后进入过拟合阶段,验证损失持续上升而训练损失继续降低。通过t-SNE可视化发现,Embedding矩阵从随机分布逐渐形成语义聚类结构,即使过拟合

文章图片
#深度学习#transformer#人工智能
深度学习的数学原理(三十六)—— Transformer 编码器代码实战

本文是Transformer编码器代码实战的第一部分,通过PyTorch实现编码器各组件并进行数值验证。采用字符级分词(中文逐字/英文逐字母)构建小词表(中文1106字/英文54字符),使注意力模式更直观。重点实现了位置编码的可视化展示,揭示其低频到高频的频谱结构,并通过手动计算验证公式正确性。模型配置为3层编码器(d_model=32,4头注意力,FFN隐藏层128维)。配套notebook提供

文章图片
#深度学习#transformer#人工智能
从项目入手机器学习(六)—— 深度学习尝试

在进行深度学习之前,我们需要了解一下对于机器学习和深度学习来说,它们的处理方法有哪些不同。

文章图片
#机器学习#深度学习#人工智能
深度学习的数学原理(十七)—— 归一化:BN与LN

本文深入探讨了深度学习中两种关键归一化技术——Batch Normalization(BN)和Layer Normalization(LN)的数学原理与应用差异。BN通过在批次维度计算统计量解决内部协变量偏移(ICS)问题,适用于CNN等固定批量任务;而LN则在特征维度独立归一化,适配Transformer等变长序列任务。文章从数学公式、梯度传播到实际应用场景进行系统对比,揭示了两种方法在稳定训练

文章图片
#深度学习#人工智能
深度学习的数学原理(十)—— 权重如何自发分工

摘要: 本文通过简化MNIST二分类任务(识别数字0/1),构建单隐藏层MLP(2个神经元),从数学角度解析反向传播如何引导权重分工。以样本1(水平边缘特征)为例,详细推导前向传播(计算损失0.653)和反向传播过程,展示初始权重差异如何导致梯度更新方向不同:神经元1权重(前两像素较大)和神经元2权重(后两像素较大)分别沿不同方向调整。核心结论表明,损失函数提供误差信号,反向传播通过链式求导将误差

文章图片
#深度学习#人工智能#计算机视觉
深度学习的数学原理(十二)—— CNN的反向传播

本文详细推导了CNN卷积层的反向传播过程,重点解析了偏置、权重和输入特征图的梯度计算。偏置梯度是损失对未激活输出的梯度之和;权重梯度通过互相关操作计算,本质是梯度图与输入特征图的加权求和;输入梯度则需累加所有覆盖该输入元素的局部窗口贡献。推导过程遵循链式法则,并考虑了ReLU激活函数的影响。结果表明,CNN前向与反向传播的核心操作均为互相关,便于工程实现。文章还通过PyTorch自动求导验证了推导

文章图片
#深度学习#cnn#人工智能
深度学习的数学原理(十三)—— CNN实战

本文基于PyTorch实现了LeNet风格的CNN模型,用于MNIST手写数字分类任务。通过构建包含卷积层、池化层和全连接层的网络结构,配合数据预处理、训练流程和超参数设置,完整展示了CNN从特征提取到分类预测的全过程。文章特别强调代码实现与前文理论推导的一致性,包括前向传播、反向传播梯度计算等核心逻辑。此外,通过可视化训练过程和数据标准化处理,确保模型可直接复现运行。该实现不仅验证了CNN在图像

文章图片
#深度学习#cnn#人工智能
深度学习的数学原理(十一)—— CNN:二维卷积的数学本质与图像特征提取

本文系统阐述了卷积神经网络(CNN)的核心原理与数学基础。首先指出多层感知机(MLP)处理图像数据的缺陷,引出CNN通过局部连接、参数共享和池化操作解决空间特征提取问题。重点解析了二维离散卷积的数学定义,区分了理论卷积与工程实现中的互相关操作,推导了卷积输出尺寸的计算公式。通过MNIST数据示例,详细演示了无填充和有填充情况下的卷积计算过程,验证了尺寸公式的正确性。文章强调CNN是MLP针对图像数

文章图片
#深度学习#cnn#人工智能
    共 46 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择