logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

NLP学习系列 | BERT和GPT模型代码简单对比

文章摘要: BERT和GPT是两类主流预训练模型,BERT擅长文本理解任务(如分类、问答),采用双向Transformer编码器,通过掩码语言模型(MLM)和下一句预测(NSP)预训练;GPT专精文本生成,基于单向Transformer解码器,通过自回归语言建模预训练。实践对比显示:BERT在中文分词(WordPiece)和句间关系判断表现优异,微调后分类准确率达100%;GPT在英文续写任务中生

#自然语言处理#学习#bert
NLP学习系列 | Transformer代码简单实现

本文介绍了Transformer模型的架构实现,重点讲解了多头注意力机制和位置编码等核心组件。文章首先概述了Transformer在2017年论文中提出的背景,然后通过代码详细展示了从数据准备到模型构建的完整流程,包括:1) 超参数设置;2) 数据集分词和词嵌入;3) 位置编码实现;4) 多头注意力机制的计算过程;5) 残差连接和层归一化;6) 前馈网络的构建。文中配有图解说明关键计算步骤,如QK

#自然语言处理#人工智能
深度学习系列 | GRU门控循环单元

摘要:GRU(门控循环单元)通过简化LSTM结构(合并输入门/遗忘门为更新门,取消细胞状态),在保留长期记忆能力的同时提升效率,适用于短序列(<50步)和资源受限场景。其核心机制包括重置门(过滤无用信息)和更新门(平衡新旧信息),参数量比LSTM少33%,训练更快且内存占用更低(IoT设备1.8MB)。但长序列处理(>100步)和抗噪声能力弱于LSTM,适合移动端、实时短文本任务(如评

#深度学习#gru#lstm
深度学习系列 | 梯度下降算法

梯度下降是一种优化算法,通过沿着目标函数梯度的反方向逐步调整参数,寻找最小值点。其核心思想类似于在大雾天摸索下山:根据当前最陡方向(梯度)决定下一步方向,以可控步长(学习率)迭代逼近最优解。该方法突破了传统解析法在高维、复杂问题中的局限,广泛应用于机器学习等领域。但存在学习率难调、可能陷入局部最小值等局限。根据计算梯度时使用的样本量不同,可分为批量、随机和小批量梯度下降三种变体,其中小批量梯度下降

#人工智能#算法#深度学习
深度学习系列 | 常用激活函数

摘要:激活函数是神经网络实现非线性的关键组件,通过将线性计算结果转换为非线性输出,使网络能够处理复杂模式。常见激活函数包括:Sigmoid(输出0-1,适合概率)、Tanh(输出-1-1,对称性强)、ReLU(简单高效但易导致神经元"死亡")和LeakyReLU(改进ReLU,避免完全失效)。虽然激活函数解决了线性模型的局限性,但也存在梯度消失、神经元死亡等问题。代码示例展示了

#深度学习#人工智能#python +1
到底了