logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

transformer(4)图解layernorm是怎么完成的

摘要:归一化是训练深层网络的关键技术,用于解决梯度消失或爆炸问题。文本领域采用LayerNorm(LN)而非BatchNorm(BN),因文本长度不固定且含无意义padding。LN对每个样本所有特征归一化,而RMSNorm简化计算仅用均方根。DeepNorm则针对超深层网络设计,结合残差连接优化数据分布。归一化位置分为层前(Pre-Norm)和层后(Post-Norm),前者更易训练但后者能力更

文章图片
#transformer#深度学习#人工智能
从 AdaGrad 到 AdamW:优化器的进化之路

本文系统梳理了深度学习优化器的进化历程:从牛顿法的理论理想出发,到AdaGrad引入梯度平方和模拟曲率,RMSProp改进为指数加权平均避免学习率衰减过快,再到集大成的Adam结合动量和自适应学习率。特别指出Adam在处理L2正则化时的缺陷,以及AdamW如何通过解耦权重衰减来解决这一问题,使其成为大模型训练的首选。各优化器的核心思想与适用场景形成鲜明对比,展现了算法设计中对计算效率与优化效果的持

#transformer#深度学习#人工智能
YaRN:解密扩展大模型上下文的方法

本文深入探讨了旋转位置编码(RoPE)及其扩展方法YaRN。RoPE通过旋转矩阵在query和key向量中注入位置信息,巧妙利用不同频率编码近距离和远距离位置关系。传统上下文窗口扩展方法(如位置内插)存在分辨率下降问题。YaRN基于NTK理论,提出非均匀缩放策略:高频维度保持原样,低频维度进行压缩。该方法通过引入阈值参数区分不同频率区域,实现更精细的扩展控制。相比直接内插,YaRN能在保持模型微观

#transformer#深度学习#人工智能
1.WiFi模块ESP8266模块的使用(针对初学者)

虽然esp8266有很多种,但是对于我们初学者来说,只需要有RXD,TXD,VCC,GND四个引脚,简单入门足够了1. 引脚说明:VCC连接正极(有些是3.3V,有些是5V,我的这个是5V),GND连接负极RXD:数据的接收端 (连接单片机或者USB转TTL模块的TXD)TXD:数据的发送端 (连接单片机或者USB转TTL模块的RXD)RST: 复位,低电平有效IO_0:用

#单片机#物联网#学习
2.WiFi模块ESP8266使用教程

总器件:Esp8266模块,USB转TTL模块,同时电脑上要有”网络调试助手”和”串口助手”一般而言,当我们用USB转TTL模块与Esp8266连接之后,波特率默认为115200当我们用这个模块箱Esp8266发送数据的时候,串口助手记得勾选”发送新行”当我们上电之后Esp8266 我们串口助手一直接受到乱码,可能是电压过低,可以考虑将3.3V换成5V我们直接利用AT指...

#单片机#物联网
HC-05蓝牙模块使用教程

一 、模块简介嵌入式蓝牙串口通讯模块(简称蓝牙模块)具有两种工作模式:命令响应工作模式和自动连接工作模式。当模块处于命令响应工作模式(或者AT模式)时能才能执行 AT 命令,用户可向模块发送各种 AT 指令,为模块设定控制参数或发布控制命令。(AT指令就是我们PC与一些终端设备(例如蓝牙,WiFi模块)之间进行通信的,配置这些终端设备参数的一套指令。)在自动连接工作模式下模块又可分为主...

#嵌入式
一、LCD12864(带字库的)使用教程:

一、LCD12864简介LCD12864液晶显示,也就是屏幕上总共有128*64 ,个点,每个点就只有两种状态亮和不亮我这里使用的就是带字库的,直接可以显示中文,不需要自己去编码,发送数据使用8位并行模式。我这里不介绍怎么显示图片,不介绍指令,知识快速入门得到显示结果二、引脚介绍1.一共有20个引脚,重要的只有那么几个3~VO就是调节对比度的,相当于调节每个点显示...

#单片机#物联网#硬件开发
到底了