logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

《从零构建大模型》系列(20):因果注意力——大语言模型的核心安全机制

因果注意力是确保语言模型生成连贯文本的关键技术,它通过掩码机制防止模型"作弊"访问未来信息。本文系统讲解了因果注意力的实现原理、PyTorch实现步骤,并对比了标准注意力与因果注意力的差异。重点内容包括:1) 基础实现类与设备感知技巧;2) 注意力Dropout的正则化作用;3) 批处理优化方法;4) 从可视化分析到实际文本生成应用;5) 高级变体如滑动窗口和分块注意力。文章还

文章图片
#语言模型#深度学习#人工智能
《从零构建大模型》系列(19):实现带可训练权重的自注意力机制——大语言模型的核心引擎

本文详细解析了可训练自注意力机制的实现原理与应用。文章首先解释了可训练权重的重要性,包括增强模型适应性和表达能力等核心优势。随后分步演示了自注意力机制的完整实现过程:从初始化权重矩阵、计算QKV向量,到注意力分数计算、缩放归一化,最终生成上下文向量。文中对比了两种实现方式(基础参数实现与优化线性层实现),并深入探讨了缩放点积注意力的数学原理。此外,文章还分析了自注意力在GPT等大模型中的实际应用配

文章图片
#语言模型#人工智能#自然语言处理
《从零构建大模型》系列(11):特殊上下文词元——大语言模型的“语义路标“

本文深入探讨了大语言模型中特殊词元的核心作用与技术实现。首先分析了特殊词元面临的三大挑战:跨文档处理、领域外词汇和批量训练需求。重点介绍了GPT采用极简主义设计的7类关键特殊词元,特别是<|endoftext|>的多重功能(文档分隔、填充标记和序列终止)。通过代码示例展示了词表扩展、分词器升级、多文档编码和训练优化等实战技术,对比了GPT与BERT在特殊词元设计上的差异。文章还提供了工

文章图片
#语言模型#人工智能#自然语言处理
《从零构建大模型》系列(18):自注意力机制——让模型学会“抓重点”的艺术

摘要:自注意力机制是Transformer模型的核心,它能自动学习序列内部元素间的复杂关系(如指代、因果等)。本文详细解析了自注意力机制的工作原理:从输入表示、注意力分数计算(点积相似度)、权重归一化(Softmax)到上下文向量生成,并展示了矩阵运算优化方法。自注意力具有位置不变性但存在计算复杂度高的挑战。文章还比较了基础自注意力与引入可训练权重的改进版本,并探讨了其在大语言模型(如GPT系列)

文章图片
#人工智能
《从零构建大模型》系列(4):Transformer架构——大语言模型的心脏引擎

《Transformer架构:重塑AI时代的核心技术》摘要: 2017年谷歌提出的Transformer架构已成为自然语言处理领域的基石,支撑着98%的大语言模型。其核心创新在于完全依赖自注意力机制,解决了RNN的长距离依赖和并行计算难题。架构分为编码器(BERT类)和解码器(GPT类)两大路线,分别擅长文本理解和生成。Transformer已拓展至计算机视觉领域(ViT),并在计算效率方面涌现F

文章图片
#transformer#语言模型#深度学习 +1
《从零构建大模型》系列(23):深入解析GELU激活函数与Transformer前馈神经网络实现

深入探讨了 Transformer 架构中前馈神经网络的关键作用,以及 GELU 激活函数相较于传统 ReLU 的优势。文章指出 ReLU 在深度网络中的局限性,如负区梯度为零导致的神经元死亡问题,而 GELU 通过输入值的概率加权,使负信号也能参与学习,且处处可导。详细介绍了 GELU 的精确计算与工程近似方法,并给出了 PyTorch 实现代码,还将其与 ReLU 进行直观对比。在前馈网络实现

文章图片
#transformer#神经网络#深度学习
《从零构建大模型》系列(6):深入GPT架构——从原理到ChatGPT的进化之路

本文系统解析了GPT系列模型的架构演进与核心技术。从117M参数的GPT-1到1.8T参数的GPT-4,模型通过纯解码器Transformer架构实现质的飞跃,其核心在于自监督的"预测下一个词"任务。文章详细剖析了GPT-3的1750亿参数分布、并行计算优化和涌现能力产生机制,并对比了RLHF技术带来的对话能力提升。同时介绍了LLaMA等开源替代方案的技术创新,提供了300行P

文章图片
#人工智能
《从零构建大模型》系列(22):实现GELU激活函数与前馈网络

本文探讨了Transformer架构中GELU激活函数的优势及其实现。GELU相比传统ReLU具有平滑过渡、概率解释等优势,能有效避免神经元死亡问题。文章详细展示了GELU的数学定义、PyTorch实现,并将其集成到前馈神经网络模块中。通过构建包含多头注意力、层归一化和残差连接的完整Transformer块,最终实现了GPT模型。关键创新包括GELU激活函数、权重共享技术和模块化设计,这些改进使模

文章图片
#人工智能
《从零构建大模型》系列(13):滑动窗口采样——大语言模型的数据引擎

本文深入探讨了大语言模型训练中的核心数据处理技术——滑动窗口算法及其工业级实现。主要内容包括:1) 解析输入-目标对作为大模型训练基础,展示滑动窗口采样的数学形式和可视化;2) 提供基础滑动窗口实现代码,包括单步采样、步幅策略对比;3) 详述PyTorch Dataset设计,实现内存映射优化和支持超大规模数据集的MMapGPTDataset;4) 分析三种采样模式性能,显示分块采样在1GB文本上

文章图片
#语言模型#人工智能#算法
《从零构建大模型》系列(12):BPE算法——大语言模型的分词基石

BPE算法:现代语言模型的分词核心技术 BPE(Byte Pair Encoding)算法通过动态合并高频字符对的方式,完美解决了传统分词方法在词表大小和OOV问题之间的权衡难题。本文系统性地介绍了BPE的核心原理、实现方法和优化策略,包括: 算法流程解析与可视化演示 从基础到优化的完整实现代码 GPT系列采用的字节级BPE创新 与传统分词算法的性能对比 训练实践中的参数配置与陷阱规避 BPE通过

文章图片
#语言模型#人工智能#自然语言处理
    共 16 条
  • 1
  • 2
  • 请选择