夜瞬个人主页

@qq_73077451

夜瞬

2024-06-16 21:42:45 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

从零开始搭建、训练并保存你的 CIFAR10 分类模型

本文详细介绍了使用PyTorch实现CIFAR10图像分类的完整训练流程。主要内容包括：1）标准九步训练法，涵盖数据准备、模型构建到模型保存全过程；2）关键步骤详解，如数据加载、网络结构设计（封装在model.py）、损失函数和优化器选择；3）实战技巧，包括训练/测试模式切换、梯度清零三部曲、TensorBoard可视化监控等。文章特别强调.item()转换、准确率计算和模型检查点保存等实用细节，

#分类 #数据挖掘 #人工智能 +4

PyTorch Dataset类入门教程：自定义数据集加载

在进行深度学习训练时，数据预处理是一个至关重要的步骤。PyTorch 提供了强大的工具来加载和处理数据，其中 torch.utils.data.Dataset 类是一个非常重要的基础类。今天，我将向大家展示如何从零开始实现一个自定义的 Dataset 类，帮助我们更方便地加载图像数据集。

#pytorch #人工智能 #python

URL的五个核心组成部分

URL（Uniform Resource Locator，统一资源定位符）是互联网上标准资源的地址。一个完整的URL由多个部分组成，它们共同指定了资源的访问方式、位置以及可能的附加信息。:8080?key=value#section协议定义了如何访问资源以及客户端与服务器之间数据传输的格式和规则。最常见的协议是HTTP和HTTPS。其他常见协议还包括（文件传输）、（电子邮件）、（本地文件）等。lo

#http

从后端到 RAG 再到 Agent：一份可执行的大模型应用开发学习路线

这篇文章提出了一份12周的大模型应用开发学习路线，适合有一定编程基础、想转向大模型应用开发的初学者。路线分为六个阶段：1）补后端基础（FastAPI等）；2）掌握模型API调用；3）学习LangChain/LangGraph框架；4）重点突破RAG技术；5）掌握Agent开发；6）微调与推理优化作为加分项。作者强调学习重点应围绕"做系统"展开，建议先完成可落地的项目（如API服

#学习 #语言模型

神经网络：池化层（MaxPool2d）详解及实战

本文详解了PyTorch中MaxPool2d池化层的原理与应用，重点解析了kernel_size和ceil_mode等参数对特征图尺寸的影响。通过5x5矩阵的手动计算演示和CIFAR-10数据集实验，直观展示了最大池化在保留核心特征的同时实现数据降维的效果。文章使用Tensorboard可视化对比了池化前后的图像变化，说明虽然分辨率降低导致图像模糊，但关键特征仍得以保留。该技术能有效提升模型训练效

#神经网络 #人工智能 #深度学习 +1

神经网络：非线性激活（ReLU & Sigmoid）详解

本文通过PyTorch实战演示了ReLU和Sigmoid两种激活函数的应用。实验使用CIFAR-10数据集，结合Tensorboard可视化，展示非线性激活对神经网络的重要性。ReLU通过截断负值筛选特征，计算高效；Sigmoid将数值压缩到(0,1)区间，适合分类输出。代码实现了一个串联网络：先用ReLU过滤输入，再通过Sigmoid映射。实验显示激活函数会显著改变图像特征，ReLU消除负值，S

#神经网络 #人工智能 #深度学习 +1

NLP学习笔记13：BERT系列模型——从预训练到 RoBERTa 与 ALBERT

BERT是NLP领域的里程碑式模型，推动了预训练+微调范式的普及。它基于Transformer编码器，通过掩码语言模型(MLM)和下一句预测(NSP)任务实现双向上下文建模。BERT的输入包含词嵌入、位置嵌入和段落嵌入，并引入特殊标记[CLS]、[SEP]等。其核心优势在于统一了多种NLP任务的建模方式，大幅减少特征工程需求。BERT-base和BERT-large是两种常见规模，微调时建议使用小

#自然语言处理 #学习

NLP学习笔记12：预训练模型——从 BERT 到 GPT 与 T5

文章摘要：预训练模型的发展与应用预训练模型（如BERT、GPT、T5）通过大规模语言学习实现了NLP领域的范式转变。它们采用"预训练+微调"模式，先在海量文本中学习语言规律，再迁移到具体任务。相比传统方法，预训练模型显著减少了数据依赖和特征工程成本，提高了跨任务迁移能力。发展历程经历了词向量、上下文感知到Transformer架构三个阶段。当前主流模型分为三类：Encoder

#自然语言处理 #学习

NLP学习笔记11：序列到序列模型——从 Encoder-Decoder 到 Attention

本文介绍了序列到序列模型(Seq2Seq)的基本原理和应用。Seq2Seq采用编码器-解码器结构，将输入序列编码为上下文向量后解码输出序列。早期模型存在固定长度上下文瓶颈问题，后来通过引入注意力机制(Attention)得到改进，使解码器能动态关注输入的不同部分。Seq2Seq广泛应用于机器翻译、文本摘要和对话生成等任务，并与Transformer架构结合形成现代实现。文章还概述了关键技术如Tea

#自然语言处理 #学习

NLP学习笔记10：Transformer 架构——从编码器、解码器到自注意力

Transformer架构是NLP领域的革命性突破，它完全基于注意力机制取代了传统的RNN/LSTM结构。该架构由编码器和解码器组成，核心组件包括自注意力机制、多头注意力和位置编码。相比RNN，Transformer能直接建模全局依赖关系，具有更强的并行处理能力。其优势在于优异的性能表现、良好的可扩展性和迁移能力，但也面临自注意力二次复杂度带来的计算成本问题。这一架构已成为BERT、GPT等现代N

#自然语言处理 #学习

共 18 条

请选择