xiaolaji600 个人主页

@xiaolaji600

xiaolaji600

2022-12-19 16:01:14 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习的数学原理（四十一）—— KV Cache

本文探讨了Transformer模型在推理阶段使用KV Cache的必要性及其优化效果。KV Cache通过缓存历史token的Key和Value向量，避免了自回归生成时的重复计算。分析表明，无Cache时计算复杂度为O(T³)，而使用KV Cache后降至O(T²)，在序列长度T=2048时可实现约2000倍加速。通过具体数值例子对比，展示了KV Cache如何减少50%的投影计算和57%的注意

#深度学习 #人工智能

深度学习的数学原理（三十九）—— Transformer 数学全景图

第 1 层：概念第 23-32 篇└── 逐个学习 Transformer 组件的数学原理（注意力、FFN、LN、Adam 等 10 个独立概念）第 2 层：数值第 33-35 篇└── 用极小型模型（d_model=4）手算每个组件的输入输出（从 10 个概念到 3 个完整流程：编码器→解码器→训练）第 3 层：代码第 36-38 篇└── 用 PyTorch 实现完整 Transform

#深度学习 #transformer #人工智能

深度学习的数学原理（三十八）—— Transformer 完整训练代码实战

本文通过训练一个小型Transformer模型（13万参数）进行中英翻译任务，观察参数从随机初始化到有序化的学习过程。模型在800句对的小数据集上训练3000步，设置8个检查点记录关键指标。结果显示：训练初期（前500步）模型有效学习，验证损失同步下降；随后进入过拟合阶段，验证损失持续上升而训练损失继续降低。通过t-SNE可视化发现，Embedding矩阵从随机分布逐渐形成语义聚类结构，即使过拟合

#深度学习 #transformer #人工智能

深度学习的数学原理（三十六）—— Transformer 编码器代码实战

本文是Transformer编码器代码实战的第一部分，通过PyTorch实现编码器各组件并进行数值验证。采用字符级分词（中文逐字/英文逐字母）构建小词表（中文1106字/英文54字符），使注意力模式更直观。重点实现了位置编码的可视化展示，揭示其低频到高频的频谱结构，并通过手动计算验证公式正确性。模型配置为3层编码器（d_model=32，4头注意力，FFN隐藏层128维）。配套notebook提供

#深度学习 #transformer #人工智能

从项目入手机器学习（六）—— 深度学习尝试

在进行深度学习之前，我们需要了解一下对于机器学习和深度学习来说，它们的处理方法有哪些不同。

#机器学习 #深度学习 #人工智能

深度学习的数学原理（十七）—— 归一化：BN与LN

本文深入探讨了深度学习中两种关键归一化技术——Batch Normalization（BN）和Layer Normalization（LN）的数学原理与应用差异。BN通过在批次维度计算统计量解决内部协变量偏移（ICS）问题，适用于CNN等固定批量任务；而LN则在特征维度独立归一化，适配Transformer等变长序列任务。文章从数学公式、梯度传播到实际应用场景进行系统对比，揭示了两种方法在稳定训练

#深度学习 #人工智能

深度学习的数学原理（十）—— 权重如何自发分工

摘要：本文通过简化MNIST二分类任务（识别数字0/1），构建单隐藏层MLP（2个神经元），从数学角度解析反向传播如何引导权重分工。以样本1（水平边缘特征）为例，详细推导前向传播（计算损失0.653）和反向传播过程，展示初始权重差异如何导致梯度更新方向不同：神经元1权重（前两像素较大）和神经元2权重（后两像素较大）分别沿不同方向调整。核心结论表明，损失函数提供误差信号，反向传播通过链式求导将误差

#深度学习 #人工智能 #计算机视觉

深度学习的数学原理（十二）—— CNN的反向传播

本文详细推导了CNN卷积层的反向传播过程，重点解析了偏置、权重和输入特征图的梯度计算。偏置梯度是损失对未激活输出的梯度之和；权重梯度通过互相关操作计算，本质是梯度图与输入特征图的加权求和；输入梯度则需累加所有覆盖该输入元素的局部窗口贡献。推导过程遵循链式法则，并考虑了ReLU激活函数的影响。结果表明，CNN前向与反向传播的核心操作均为互相关，便于工程实现。文章还通过PyTorch自动求导验证了推导

#深度学习 #cnn #人工智能

深度学习的数学原理（十三）—— CNN实战

本文基于PyTorch实现了LeNet风格的CNN模型，用于MNIST手写数字分类任务。通过构建包含卷积层、池化层和全连接层的网络结构，配合数据预处理、训练流程和超参数设置，完整展示了CNN从特征提取到分类预测的全过程。文章特别强调代码实现与前文理论推导的一致性，包括前向传播、反向传播梯度计算等核心逻辑。此外，通过可视化训练过程和数据标准化处理，确保模型可直接复现运行。该实现不仅验证了CNN在图像

#深度学习 #cnn #人工智能

深度学习的数学原理（十一）—— CNN：二维卷积的数学本质与图像特征提取

本文系统阐述了卷积神经网络（CNN）的核心原理与数学基础。首先指出多层感知机（MLP）处理图像数据的缺陷，引出CNN通过局部连接、参数共享和池化操作解决空间特征提取问题。重点解析了二维离散卷积的数学定义，区分了理论卷积与工程实现中的互相关操作，推导了卷积输出尺寸的计算公式。通过MNIST数据示例，详细演示了无填充和有填充情况下的卷积计算过程，验证了尺寸公式的正确性。文章强调CNN是MLP针对图像数

#深度学习 #cnn #人工智能

共 46 条

请选择