logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

[大模型教我成为大模型算法工程师之day2:传统机器学习算法(上)]

本文介绍了四种经典机器学习算法:线性模型(线性回归和逻辑回归)、朴素贝叶斯、决策树与随机森林、支持向量机(SVM)。线性模型是基础,逻辑回归用于分类;朴素贝叶斯基于概率且高效;决策树通过规则分类,随机森林通过集成提升性能;SVM追求最大间隔分类边界,可处理非线性数据。文章比较了各算法优缺点,并给出实战建议:逻辑回归适合基线模型,随机森林适合表格数据,SVM适合小样本高维数据。最后强调特征工程的重要

文章图片
#算法#机器学习#人工智能
大模型教我成为大模型算法工程师之day14: 目标检测 (Object Detection)

目标检测技术综述:本文系统梳理了目标检测的核心概念与技术演进。重点解析了IoU、NMS和Anchor三大基础概念,对比了Faster R-CNN(两阶段检测)与YOLO(单阶段检测)的技术差异:前者通过RPN筛选候选框再精修,后者采用网格划分直接回归。同时介绍了FPN多尺度特征融合方法,以及包含分类、置信度和边界框回归的复合损失函数。文章还提供了IoU计算的代码实现,完整呈现了从传统方法到现代深度

#算法#目标检测#人工智能
大模型教我成为大模型算法工程师之day12:深度学习框架与工程实践

摘要:本文深入探讨深度学习工程实践中的关键技术。首先解析PyTorch核心机制,包括Autograd自动求导系统和nn.Module参数管理。重点介绍混合精度训练(AMP)原理与实现,通过Loss Scaling解决FP16下溢问题。同时讲解梯度检查点和梯度累积等显存优化技术,以及训练监控工具(WandB/TensorBoard)和性能分析方法。这些工程技术能显著提升训练效率,帮助开发者从小规模实

#算法#深度学习#人工智能
大模型教我成为大模型算法工程师之day8: 优化器与训练技巧

本文系统介绍了深度学习模型训练中的优化器演进与关键技术。从基础SGD到Momentum、Adam/AdamW优化器的原理对比,解析了学习率调度策略(Warmup和余弦退火)的重要性。深入讲解了归一化技术(BN/LN/RMSNorm)的作用机制及适用场景,并阐述了Dropout、Weight Decay等正则化方法的原理。文章通过形象类比和代码示例,帮助读者理解这些"炼丹"技巧如

#算法
大模型教我成为大模型算法工程师之day10:循环神经网络 (RNN)

摘要:循环神经网络(RNN)通过引入时间维度的记忆机制处理序列数据,但存在梯度消失问题。LSTM通过遗忘门、输入门和输出门控制信息流动,利用细胞状态(Cell State)实现长距离依赖。GRU作为简化版,合并状态和门控机制,提升效率。双向RNN同时考虑上下文信息,而Seq2Seq架构为机器翻译奠定基础。虽然Transformer主导NLP领域,但LSTM/GRU在小模型和实时计算中仍具优势。本文

#算法#rnn#人工智能
大模型教我成为大模型算法工程师之day4:特征工程与模型评估

本文探讨了机器学习中的特征工程与模型评估方法。特征工程包括特征构建、提取/变换和选择三个关键环节,其中特征选择可采用过滤法、包裹法或嵌入法。特征变换涉及无量纲化、离散化和类别编码等技术。模型评估方面,分类问题常用准确率、精确率、召回率、F1-Score和AUC-ROC指标,回归问题则采用MSE、RMSE、MAE和R² Score。文章还介绍了交叉验证和超参数调优策略,并通过Python代码展示了完

文章图片
#算法
大模型教我成为大模型算法工程师之day13:图像分类与 Vision Transformer (ViT)

摘要:本文深入解析了Vision Transformer (ViT)及其改进版Swin Transformer的核心原理。ViT通过将图像分割为16×16的块序列,采用纯Transformer架构实现图像分类,打破了CNN在计算机视觉的垄断地位。Swin Transformer引入窗口注意力和移动窗口机制,显著降低了计算复杂度。文章还介绍了MixUp、CutMix等现代数据增强技术对ViT训练的关

#算法#分类#transformer
大模型教我成为大模型算法工程师之day19: NLP 基础与词表示

摘要:本文介绍了自然语言处理(NLP)中的文本向量化技术演进历程。从传统的One-Hot编码(高维稀疏、语义缺失)到分布式词嵌入(Word Embedding),重点讲解了Word2Vec的两种训练模式(CBOW和Skip-Gram)及其负采样优化技术。随后探讨了从单词级到子词级(Subword)的分词进化,特别是BPE算法如何解决未登录词问题。文章还概述了文本预处理的标准流程,并展示了PyTor

#算法#自然语言处理#人工智能
大模型教我成为大模型算法工程师之day20: 预训练语言模型 (Pre-trained Language Models)

摘要:预训练语言模型从ELMo开始突破静态词向量限制,通过上下文动态生成词向量。BERT采用双向Transformer架构和MLM任务,在理解类任务上表现卓越;GPT系列坚持单向Decoder结构,专注生成任务并最终引领大模型时代。T5尝试统一NLP任务为文本生成格式。当前实践可通过HuggingFace快速调用预训练模型。BERT虽开创先河,但GPT的自回归特性在数据规模扩大后展现出更强泛化能力

#算法#语言模型#人工智能
    共 41 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择