布鲁格若门个人主页

@private_void_main

布鲁格若门

2023-08-21 10:00:06 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

transformer（4）图解layernorm是怎么完成的

摘要：归一化是训练深层网络的关键技术，用于解决梯度消失或爆炸问题。文本领域采用LayerNorm(LN)而非BatchNorm(BN)，因文本长度不固定且含无意义padding。LN对每个样本所有特征归一化，而RMSNorm简化计算仅用均方根。DeepNorm则针对超深层网络设计，结合残差连接优化数据分布。归一化位置分为层前(Pre-Norm)和层后(Post-Norm)，前者更易训练但后者能力更

#transformer #深度学习 #人工智能

从 AdaGrad 到 AdamW：优化器的进化之路

本文系统梳理了深度学习优化器的进化历程：从牛顿法的理论理想出发，到AdaGrad引入梯度平方和模拟曲率，RMSProp改进为指数加权平均避免学习率衰减过快，再到集大成的Adam结合动量和自适应学习率。特别指出Adam在处理L2正则化时的缺陷，以及AdamW如何通过解耦权重衰减来解决这一问题，使其成为大模型训练的首选。各优化器的核心思想与适用场景形成鲜明对比，展现了算法设计中对计算效率与优化效果的持

#transformer #深度学习 #人工智能

为什么Transformer使用LayerNorm而不是BatchNorm？

摘要：本文对比了批量标准化(BN)和层标准化(LN)在深度学习中的差异及其适用场景。BN通过mini-batch的统计量进行特征维度标准化，能有效缓解内部协变量偏移问题，但难以处理NLP中的变长序列。而LN则在单个样本内部进行标准化，天然适配变长数据且不受batch size影响。Transformer选择LN主要基于三点：1)适应NLP变长序列特性；2)对小batch size不敏感；3)提供更

#transformer #深度学习 #人工智能

YaRN：解密扩展大模型上下文的方法

本文深入探讨了旋转位置编码（RoPE）及其扩展方法YaRN。RoPE通过旋转矩阵在query和key向量中注入位置信息，巧妙利用不同频率编码近距离和远距离位置关系。传统上下文窗口扩展方法（如位置内插）存在分辨率下降问题。YaRN基于NTK理论，提出非均匀缩放策略：高频维度保持原样，低频维度进行压缩。该方法通过引入阈值参数区分不同频率区域，实现更精细的扩展控制。相比直接内插，YaRN能在保持模型微观

#transformer #深度学习 #人工智能

linux nvidia 11.8 安装记录

linux 下安装cuda 11.8 驱动以及开发包教程,以centos 7为例

#linux #运维 #服务器

transformer（4）图解layernorm是怎么完成的

#transformer #深度学习 #人工智能

从 AdaGrad 到 AdamW：优化器的进化之路

#transformer #深度学习 #人工智能

YaRN：解密扩展大模型上下文的方法

#transformer #深度学习 #人工智能

1.WiFi模块ESP8266模块的使用(针对初学者)

虽然esp8266有很多种,但是对于我们初学者来说,只需要有RXD,TXD,VCC,GND四个引脚,简单入门足够了1. 引脚说明:VCC连接正极(有些是3.3V,有些是5V,我的这个是5V),GND连接负极RXD:数据的接收端 (连接单片机或者USB转TTL模块的TXD)TXD:数据的发送端 (连接单片机或者USB转TTL模块的RXD)RST: 复位,低电平有效IO_0:用

#单片机 #物联网 #学习

2.WiFi模块ESP8266使用教程

总器件:Esp8266模块,USB转TTL模块,同时电脑上要有”网络调试助手”和”串口助手”一般而言,当我们用USB转TTL模块与Esp8266连接之后,波特率默认为115200当我们用这个模块箱Esp8266发送数据的时候,串口助手记得勾选”发送新行”当我们上电之后Esp8266 我们串口助手一直接受到乱码,可能是电压过低,可以考虑将3.3V换成5V我们直接利用AT指...

#单片机 #物联网

共 12 条

请选择