
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Transformer是2017年Google提出的深度学习架构,通过纯注意力机制实现了序列数据的并行处理和长距离依赖建模。它是BERT、GPT等所有大语言模型的基础架构,已成为当代人工智能的核心技术。

Transformer是2017年Google提出的深度学习架构,是GPT、BERT等大语言模型的基石。本专栏涵盖核心概念、注意力机制、模型架构及实战应用,帮助开发者从入门到精通掌握Transformer技术。

本文系统讲解编码器-解码器(Encoder-Decoder)架构的核心原理与演化历程。😊 我们将从自编码器(Autoencoder)的基础结构出发,深入探讨变分自编码器(VAE)的概率生成机制,再到 Seq2Seq 模型的序列转换能力,最后延伸至现代大语言模型(BERT、GPT、T5)中的三种架构变体。通过本文的学习,你将掌握编码器-解码器架构的设计思想,理解不同架构的适用场景,为学习 Tran

本文档深入讲解 RMSNorm(Root Mean Square Normalization,均方根归一化)的核心概念。RMSNorm 是一种轻量级的归一化方法,通过去除 LayerNorm 中的均值中心化步骤来降低计算开销。本文从归一化的背景动机出发,逐步推导 RMSNorm 的数学原理,并通过 PyTorch 代码实现帮助读者直观理解其工作机制,最后探讨 RMSNorm 在现代大语言模型(如

本文档深入讲解 SwiGLU 激活函数的核心原理,涵盖从 GLU 到 Swish 再到 SwiGLU 的演进历程、数学公式解析、门控机制工作原理、与传统激活函数的对比分析、在 LLaMA 等主流大模型中的应用,以及参数量设计原理。帮助读者深入理解 SwiGLU 为何成为现代大语言模型的标准选择

本文档深入讲解 SwiGLU 激活函数的核心原理,涵盖从 GLU 到 Swish 再到 SwiGLU 的演进历程、数学公式解析、门控机制工作原理、与传统激活函数的对比分析、在 LLaMA 等主流大模型中的应用,以及参数量设计原理。帮助读者深入理解 SwiGLU 为何成为现代大语言模型的标准选择

本文档深入讲解 SwiGLU 激活函数的核心原理,涵盖从 GLU 到 Swish 再到 SwiGLU 的演进历程、数学公式解析、门控机制工作原理、与传统激活函数的对比分析、在 LLaMA 等主流大模型中的应用,以及参数量设计原理。帮助读者深入理解 SwiGLU 为何成为现代大语言模型的标准选择

本文档深入讲解 RMSNorm(Root Mean Square Normalization,均方根归一化)的核心概念。RMSNorm 是一种轻量级的归一化方法,通过去除 LayerNorm 中的均值中心化步骤来降低计算开销。本文从归一化的背景动机出发,逐步推导 RMSNorm 的数学原理,并通过 PyTorch 代码实现帮助读者直观理解其工作机制,最后探讨 RMSNorm 在现代大语言模型(如

本文档详细解释神经网络中偏置(bias)的概念,涵盖数学定义(y=wx+b 中的 b)、几何意义(y 轴截距)、为什么需要偏置、PyTorch 代码示例对比带偏置与无偏置的区别,以及偏置在深度学习和现代大语言模型中的角色 🛠️

本文档基于斯坦福大学 CS336(从零实现大语言模型)课程作业一,从零实现字节级 BPE(Byte Pair Encoding)分词器,涵盖算法原理、训练流程、编码解码实现及完整可运行的代码示例 🛠️








