logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【深度学习精通】第12章 | 循环神经网络 - 序列建模的基础与挑战

本文系统介绍了循环神经网络(RNN)的原理与应用。首先分析了序列数据的特点和建模挑战,包括变长输入、时序依赖和参数共享需求。详细讲解了RNN的基本结构、数学定义和计算图展开方式,以及多对一、多对多等不同架构。重点推导了RNN的前向传播算法和时间反向传播(BPTT)过程,通过数学分析揭示了梯度消失/爆炸问题的本质原因。文章还对比了RNN的多种变体结构,并提供了NumPy和PyTorch实现示例。最后

#深度学习#rnn#人工智能 +2
【深度学习精通】第15章 | Transformer架构详解 - BERT、GPT与T5

本文全面解析Transformer架构,从RNN演进到自注意力机制,详细讲解编码器-解码器结构、位置编码和多头注意力等核心组件。重点对比BERT(双向编码)、GPT(自回归生成)和T5(统一文本转换)三大经典模型的设计差异,包括BERT的MLM预训练、GPT的因果掩码和T5的文本到文本框架。同时介绍RoPE等最新位置编码技术,并分析各模型的变体与应用场景。最后提供PyTorch实现的硬件环境要求,

#深度学习#transformer#架构 +2
【深度学习精通】第14章 | 注意力机制革命 - 从Seq2Seq到Self-Attention

本文摘要: 本文系统介绍了注意力机制的发展与应用,从生物学启发的视觉注意力系统出发,详细阐述了注意力机制在深度学习中的演变过程。文章首先分析了传统Seq2Seq模型的信息瓶颈问题,随后深入讲解了注意力机制的数学形式,包括Query-Key-Value范式和不同注意力类型的计算方式。特别对加性注意力和点积注意力进行了代码级的实现展示,并比较了它们的特点。通过类比图书馆找书的生动例子,使抽象的注意力机

#深度学习#人工智能#生成对抗网络 +2
【深度学习精通】第1章 | 深度学习概述与神经网络基础 - 从感知机到深度网络

摘要 本章系统介绍了深度学习的发展历程与技术原理。首先回顾了从1943年神经元模型到现代大模型时代的四个发展阶段,分析了当前多模态融合、AI Agent等前沿趋势。重点讲解了感知机的数学模型和学习算法,指出其无法解决异或问题的局限性。进而引入多层感知机(MLP)结构,详细阐述了其网络层次、前向传播计算过程以及激活函数的关键作用。通过对比Sigmoid、Tanh、ReLU等常用激活函数的特性,揭示了

#算法#深度学习#机器学习 +3
【Python数据科学实战之路】第1章 | 数据科学概述与环境搭建:开启你的数据科学之旅

摘要:本章系统介绍了数据科学的核心概念与2025-2026年行业趋势,重点解析了OSEMN数据科学工作流程(获取、清洗、探索、建模、解释)。通过奶茶店案例等生动示例,阐明数据科学与数据分析、机器学习的区别。同时前瞻性地指出AI Agent、实时处理、大模型融合等七大技术趋势,并详细指导Python开发环境搭建(Anaconda/JupyterLab/VS Code)和必备技能体系,为读者提供全面的

#python#开发语言#前端框架 +3
【深度学习精通】第7章 | 损失函数设计 - 从交叉熵到对比学习损失

摘要 本文系统介绍了深度学习中的损失函数体系,涵盖分类、回归、对比学习等多种任务场景。重点讲解了交叉熵损失及其变体(Focal Loss、Label Smoothing)的原理与实现,并提供了PyTorch代码示例。文章从损失函数的本质出发,阐述了其设计原则和核心作用,帮助读者理解如何根据不同任务需求选择合适的损失函数。特别关注了类别不平衡问题的解决方案,以及正则化技术的应用,为模型优化提供了实用

#深度学习#学习#人工智能 +2
【深度学习精通】第6章 | 权重初始化与优化策略 - 让训练更高效的技巧

本文摘要: 本章系统讲解深度学习中权重初始化与学习率调度的关键技术。权重初始化是模型训练的基石,不当初始化会导致梯度消失/爆炸等问题。重点解析了Xavier和He两种经典方法:Xavier适用于tanh/sigmoid等对称激活函数,通过输入输出神经元数的调和平均保持信号方差稳定;He初始化专为ReLU设计,考虑其神经元"关闭"特性,调整方差为2/n_in。此外还介绍了正交初始

#深度学习#人工智能#机器学习 +2
【深度学习精通】第4章 | 数据工程与预处理 - 构建高质量数据管道

数据预处理与特征工程摘要 本文系统介绍了数据预处理的核心流程与方法: 数据质量评估:从完整性、准确性等5个维度评估数据质量,识别缺失值、异常值等问题 缺失值处理:提供删除、填充(均值/中位数/众数/插值)以及深度学习中的掩码技术等多种处理策略 异常值检测:介绍Z-Score、IQR等统计方法以及Isolation Forest、LOF等机器学习方法 特征工程:涵盖特征缩放、编码、选择等技术,为模型

#深度学习#人工智能#生成对抗网络 +1
【深度学习精通】第1章 | 深度学习概述与神经网络基础 - 从感知机到深度网络

摘要 本章系统介绍了深度学习的发展历程与技术原理。首先回顾了从1943年神经元模型到现代大模型时代的四个发展阶段,分析了当前多模态融合、AI Agent等前沿趋势。重点讲解了感知机的数学模型和学习算法,指出其无法解决异或问题的局限性。进而引入多层感知机(MLP)结构,详细阐述了其网络层次、前向传播计算过程以及激活函数的关键作用。通过对比Sigmoid、Tanh、ReLU等常用激活函数的特性,揭示了

#算法#深度学习#机器学习 +3
【深度强化学习精通】第11讲 | World Model:在梦境中学习

本文探讨了World Model(世界模型)在人工智能领域的核心原理与应用。World Model模拟人类心理预演能力,通过三大组件实现:感知组件(VAE)压缩高维输入到隐空间,记忆组件(RNN/MDN-RNN)学习环境动态,决策组件(Controller)在隐空间进行高效规划。文章详细分析了各组件设计原理,比较了LSTM与GRU的优劣,并介绍了进化策略CMA-ES在参数优化中的应用。最后概述了D

#学习#机器学习#transformer +3
    共 39 条
  • 1
  • 2
  • 3
  • 4
  • 请选择