Sonal_Lynn 个人主页

@Conan_0728

Sonal_Lynn

一名不愿透露姓名的AI工程师

2022-12-29 15:52:05 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

《从零构建大模型》系列（20）：因果注意力——大语言模型的核心安全机制

因果注意力是确保语言模型生成连贯文本的关键技术，它通过掩码机制防止模型"作弊"访问未来信息。本文系统讲解了因果注意力的实现原理、PyTorch实现步骤，并对比了标准注意力与因果注意力的差异。重点内容包括：1) 基础实现类与设备感知技巧；2) 注意力Dropout的正则化作用；3) 批处理优化方法；4) 从可视化分析到实际文本生成应用；5) 高级变体如滑动窗口和分块注意力。文章还

#语言模型 #深度学习 #人工智能

《从零构建大模型》系列（19）：实现带可训练权重的自注意力机制——大语言模型的核心引擎

本文详细解析了可训练自注意力机制的实现原理与应用。文章首先解释了可训练权重的重要性，包括增强模型适应性和表达能力等核心优势。随后分步演示了自注意力机制的完整实现过程：从初始化权重矩阵、计算QKV向量，到注意力分数计算、缩放归一化，最终生成上下文向量。文中对比了两种实现方式（基础参数实现与优化线性层实现），并深入探讨了缩放点积注意力的数学原理。此外，文章还分析了自注意力在GPT等大模型中的实际应用配

#语言模型 #人工智能 #自然语言处理

《从零构建大模型》系列（11）：特殊上下文词元——大语言模型的“语义路标“

本文深入探讨了大语言模型中特殊词元的核心作用与技术实现。首先分析了特殊词元面临的三大挑战：跨文档处理、领域外词汇和批量训练需求。重点介绍了GPT采用极简主义设计的7类关键特殊词元，特别是<|endoftext|>的多重功能（文档分隔、填充标记和序列终止）。通过代码示例展示了词表扩展、分词器升级、多文档编码和训练优化等实战技术，对比了GPT与BERT在特殊词元设计上的差异。文章还提供了工

#语言模型 #人工智能 #自然语言处理

《从零构建大模型》系列（18）：自注意力机制——让模型学会“抓重点”的艺术

摘要：自注意力机制是Transformer模型的核心，它能自动学习序列内部元素间的复杂关系（如指代、因果等）。本文详细解析了自注意力机制的工作原理：从输入表示、注意力分数计算（点积相似度）、权重归一化（Softmax）到上下文向量生成，并展示了矩阵运算优化方法。自注意力具有位置不变性但存在计算复杂度高的挑战。文章还比较了基础自注意力与引入可训练权重的改进版本，并探讨了其在大语言模型（如GPT系列）

#人工智能

《从零构建大模型》系列（4）：Transformer架构——大语言模型的心脏引擎

《Transformer架构：重塑AI时代的核心技术》摘要： 2017年谷歌提出的Transformer架构已成为自然语言处理领域的基石，支撑着98%的大语言模型。其核心创新在于完全依赖自注意力机制，解决了RNN的长距离依赖和并行计算难题。架构分为编码器(BERT类)和解码器(GPT类)两大路线，分别擅长文本理解和生成。Transformer已拓展至计算机视觉领域(ViT)，并在计算效率方面涌现F

#transformer #语言模型 #深度学习 +1

《从零构建大模型》系列（23）：深入解析GELU激活函数与Transformer前馈神经网络实现

深入探讨了 Transformer 架构中前馈神经网络的关键作用，以及 GELU 激活函数相较于传统 ReLU 的优势。文章指出 ReLU 在深度网络中的局限性，如负区梯度为零导致的神经元死亡问题，而 GELU 通过输入值的概率加权，使负信号也能参与学习，且处处可导。详细介绍了 GELU 的精确计算与工程近似方法，并给出了 PyTorch 实现代码，还将其与 ReLU 进行直观对比。在前馈网络实现

#transformer #神经网络 #深度学习

《从零构建大模型》系列（6）：深入GPT架构——从原理到ChatGPT的进化之路

本文系统解析了GPT系列模型的架构演进与核心技术。从117M参数的GPT-1到1.8T参数的GPT-4，模型通过纯解码器Transformer架构实现质的飞跃，其核心在于自监督的"预测下一个词"任务。文章详细剖析了GPT-3的1750亿参数分布、并行计算优化和涌现能力产生机制，并对比了RLHF技术带来的对话能力提升。同时介绍了LLaMA等开源替代方案的技术创新，提供了300行P

#人工智能

《从零构建大模型》系列（22）：实现GELU激活函数与前馈网络

本文探讨了Transformer架构中GELU激活函数的优势及其实现。GELU相比传统ReLU具有平滑过渡、概率解释等优势，能有效避免神经元死亡问题。文章详细展示了GELU的数学定义、PyTorch实现，并将其集成到前馈神经网络模块中。通过构建包含多头注意力、层归一化和残差连接的完整Transformer块，最终实现了GPT模型。关键创新包括GELU激活函数、权重共享技术和模块化设计，这些改进使模

#人工智能

《从零构建大模型》系列（13）：滑动窗口采样——大语言模型的数据引擎

本文深入探讨了大语言模型训练中的核心数据处理技术——滑动窗口算法及其工业级实现。主要内容包括：1) 解析输入-目标对作为大模型训练基础，展示滑动窗口采样的数学形式和可视化；2) 提供基础滑动窗口实现代码，包括单步采样、步幅策略对比；3) 详述PyTorch Dataset设计，实现内存映射优化和支持超大规模数据集的MMapGPTDataset；4) 分析三种采样模式性能，显示分块采样在1GB文本上

#语言模型 #人工智能 #算法

《从零构建大模型》系列（12）：BPE算法——大语言模型的分词基石

BPE算法：现代语言模型的分词核心技术 BPE（Byte Pair Encoding）算法通过动态合并高频字符对的方式，完美解决了传统分词方法在词表大小和OOV问题之间的权衡难题。本文系统性地介绍了BPE的核心原理、实现方法和优化策略，包括：算法流程解析与可视化演示从基础到优化的完整实现代码 GPT系列采用的字节级BPE创新与传统分词算法的性能对比训练实践中的参数配置与陷阱规避 BPE通过

#语言模型 #人工智能 #自然语言处理

共 16 条

请选择