技术小黑个人主页

@weixin_42517940

技术小黑

机器学习入门学习中

2023-01-05 11:33:38 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习系列 | GRU门控循环单元

摘要：GRU（门控循环单元）通过简化LSTM结构（合并输入门/遗忘门为更新门，取消细胞状态），在保留长期记忆能力的同时提升效率，适用于短序列（<50步）和资源受限场景。其核心机制包括重置门（过滤无用信息）和更新门（平衡新旧信息），参数量比LSTM少33%，训练更快且内存占用更低（IoT设备1.8MB）。但长序列处理（>100步）和抗噪声能力弱于LSTM，适合移动端、实时短文本任务（如评

#深度学习 #gru #lstm

Pytorch学习系列09 | YOLOv5-Backbone模块实现

本文介绍了YOLOv5目标检测算法中Backbone模块的实现过程。首先通过比喻将Backbone比作提炼书籍重点的机制，说明其核心作用。然后详细展示了代码实现过程，包括：1) 设备设置(GPU/CPU)；2) 天气识别数据集的准备和预处理；3) YOLOv5 Backbone模型搭建，包含Conv、Bottleneck、C3和SPPF等关键模块；4) 60个epoch的训练过程，最终测试准确率达

#pytorch #学习

深度学习系列 | GRU门控循环单元

#深度学习 #gru #lstm

NLP学习系列 | BERT和GPT模型代码简单对比

文章摘要： BERT和GPT是两类主流预训练模型，BERT擅长文本理解任务（如分类、问答），采用双向Transformer编码器，通过掩码语言模型(MLM)和下一句预测(NSP)预训练；GPT专精文本生成，基于单向Transformer解码器，通过自回归语言建模预训练。实践对比显示：BERT在中文分词（WordPiece）和句间关系判断表现优异，微调后分类准确率达100%；GPT在英文续写任务中生

#自然语言处理 #学习 #bert

NLP学习系列 | Transformer代码简单实现

本文介绍了Transformer模型的架构实现，重点讲解了多头注意力机制和位置编码等核心组件。文章首先概述了Transformer在2017年论文中提出的背景，然后通过代码详细展示了从数据准备到模型构建的完整流程，包括：1) 超参数设置；2) 数据集分词和词嵌入；3) 位置编码实现；4) 多头注意力机制的计算过程；5) 残差连接和层归一化；6) 前馈网络的构建。文中配有图解说明关键计算步骤，如QK

梯度下降是一种优化算法，通过沿着目标函数梯度的反方向逐步调整参数，寻找最小值点。其核心思想类似于在大雾天摸索下山：根据当前最陡方向（梯度）决定下一步方向，以可控步长（学习率）迭代逼近最优解。该方法突破了传统解析法在高维、复杂问题中的局限，广泛应用于机器学习等领域。但存在学习率难调、可能陷入局部最小值等局限。根据计算梯度时使用的样本量不同，可分为批量、随机和小批量梯度下降三种变体，其中小批量梯度下降

#人工智能 #算法 #深度学习

深度学习系列 | 常用激活函数

摘要：激活函数是神经网络实现非线性的关键组件，通过将线性计算结果转换为非线性输出，使网络能够处理复杂模式。常见激活函数包括：Sigmoid（输出0-1，适合概率）、Tanh（输出-1-1，对称性强）、ReLU（简单高效但易导致神经元"死亡"）和LeakyReLU（改进ReLU，避免完全失效）。虽然激活函数解决了线性模型的局限性，但也存在梯度消失、神经元死亡等问题。代码示例展示了

#深度学习 #人工智能 #python +1

到底了