logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

02 从 RNN 到 Transformer:为什么语言建模需要新结构?

在上一篇文章中,我们从整体上介绍了大语言模型的发展路线。大语言模型并不是突然出现的,它背后经历了一个长期演进过程:统计语言模型↓神经网络语言模型↓↓Seq2Seq↓Attention↓↓↓大语言模型如果想真正理解大语言模型,不能一上来就只看 GPT、LLaMA、Qwen 或 DeepSeek。我们需要先理解一个更基础的问题:为什么早期的 RNN、LSTM、Seq2Seq 结构不够用了?

#rnn#transformer#人工智能
01 大语言模型导论:从语言模型到通用智能接口

语言模型,英文是,简称 LM。最简单地说,语言模型要解决的问题是:给定前面的文本,预测后面最可能出现的词或 token。例如给定一句话:今天天气很好,我想出去语言模型可能会预测下一个词是:散步也可能是:跑步或者:玩从数学上看,语言模型本质上是在建模一个序列的概率。假设一句话由多个 token 构成:那么语言模型希望计算整个序列出现的概率:根据概率链式法则,可以写成:这个公式的意思是:一个句子的概率

#语言模型#人工智能#自然语言处理
20 ViT 总结篇:从图像分类到视觉基础模型,Vision Transformer 的发展主线是什么?

早期研究更关注模型结构。如何切 patch?如何设计位置编码?如何降低 attention 计算量?如何构建层级结构?后来研究逐渐发现:模型结构固然重要,但数据和任务定义同样重要。MAE 的成功不仅来自 ViT,还来自高比例 mask 的任务设计。BEiT 的成功依赖 visual tokenizer 构造预测目标。DINO 的成功依赖 teacher-student 自蒸馏和多视图一致性。CLI

#分类#transformer#数据挖掘
19 SAM 论文精读:ViT 如何成为分割基础模型的视觉编码器?

在上一篇文章中,我们精读了 CLIP。CLIP 的核心思想是:使用大规模图文对训练图像编码器和文本编码器,让图像和文本进入同一个语义空间。它让 ViT 不再只是一个图像分类 backbone,而是成为多模态模型中的视觉编码器。这一篇我们继续看另一个非常重要的视觉基础模型:SAM,Segment Anything Model。如果说 CLIP 让 ViT 学会了“图像和语言如何对齐”,那么 SAM

#计算机视觉#人工智能#深度学习
18 CLIP 论文精读:ViT 如何走向图文多模态?(Learning Transferable Visual Models From Natural Language Supervision)

论文提出使用 4 亿个互联网图文对进行预训练,通过“判断哪张图和哪句话匹配”的对比学习任务,学习可迁移的视觉表示,并支持 zero-shot 图像分类。BEiT 的核心思想是:先用视觉 tokenizer 把图像转换成离散 visual token,再让模型预测被 mask 位置对应的 visual token。DINO 的核心思想是:不使用人工标签,也不重建图像,而是通过 teacher-stu

#人工智能#机器学习#深度学习
16 视觉词表详解:图像如何被转换成 Visual Token?

在前面介绍 BEiT 时,我们提到了一个非常关键的概念:visual token,视觉 token。BEiT 的思想很像 BERT。BERT 会遮住文本中的一部分词,然后让模型预测被遮住的词;BEiT 则遮住图像中的一部分 patch,然后让模型预测这些位置对应的 visual token。BEiT 原论文明确指出,一张图像在预训练中有两种视图:一种是输入 Transformer 的 image

#transformer#深度学习
15 BEiT 论文精读:BERT Pre-Training of Image Transformers

在上一篇文章中,我们精读了 MAE。MAE 的核心思想非常直接:把图像中的大部分 patch 遮住,只让编码器看到少量可见 patch,然后通过解码器重建被遮住区域的像素。从直觉上看,MAE 更像是一个“图像补全任务”:模型需要根据可见部分推测缺失区域长什么样。而 BEiT 的思路则更接近 NLP 中的 BERT。BERT 的预训练任务是 Masked Language Modeling,也就是遮

#bert#人工智能#深度学习
14 MAE代码解析:Masked Autoencoders Are Scalable Vision Learners

Masked Autoencoders for Image Modeling(MAE)是一类基于自监督学习的视觉表征学习方法,其核心思想是通过对输入图像进行随机掩码(mask),迫使模型在缺失大量信息的情况下重建原始图像,从而学习具有语义表达能力的视觉特征。本代码解析将以官方MAE实现为基础,从工程实现角度系统拆解其核心模块,包括数据处理流程、模型结构设计、Mask机制实现、Encoder-Dec

#人工智能
13 MAE 论文精读:Masked Autoencoders 如何让 ViT 学会自监督预训练?(Masked Autoencoders Are Scalable Vision Learners)

但是,当 backbone 结构逐渐成熟之后,一个新的问题开始出现:Transformer 能不能像 NLP 中的 BERT 一样,通过海量无标签数据进行自监督预训练?因为现实世界中的图像数据非常多,但真正带人工标注的数据其实很有限。在 NLP 中,BERT 的成功已经证明:通过 Masked Token Prediction,Transformer 可以从海量无标签文本中学习强大的语义表示。于是

#transformer#人工智能#深度学习 +1
12 从 ViT 到 Swin:视觉 Transformer 主干网络的发展脉络总结

如果单独看每一篇论文,读者可能会觉得每个模型都有自己的结构、公式和训练细节。Transformer 如何从一个图像分类模型,逐步发展成通用视觉骨干网络?

#transformer#深度学习#人工智能
    共 12 条
  • 1
  • 2
  • 请选择