
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在上一篇文章中,我们从整体上介绍了大语言模型的发展路线。大语言模型并不是突然出现的,它背后经历了一个长期演进过程:统计语言模型↓神经网络语言模型↓↓Seq2Seq↓Attention↓↓↓大语言模型如果想真正理解大语言模型,不能一上来就只看 GPT、LLaMA、Qwen 或 DeepSeek。我们需要先理解一个更基础的问题:为什么早期的 RNN、LSTM、Seq2Seq 结构不够用了?
语言模型,英文是,简称 LM。最简单地说,语言模型要解决的问题是:给定前面的文本,预测后面最可能出现的词或 token。例如给定一句话:今天天气很好,我想出去语言模型可能会预测下一个词是:散步也可能是:跑步或者:玩从数学上看,语言模型本质上是在建模一个序列的概率。假设一句话由多个 token 构成:那么语言模型希望计算整个序列出现的概率:根据概率链式法则,可以写成:这个公式的意思是:一个句子的概率
早期研究更关注模型结构。如何切 patch?如何设计位置编码?如何降低 attention 计算量?如何构建层级结构?后来研究逐渐发现:模型结构固然重要,但数据和任务定义同样重要。MAE 的成功不仅来自 ViT,还来自高比例 mask 的任务设计。BEiT 的成功依赖 visual tokenizer 构造预测目标。DINO 的成功依赖 teacher-student 自蒸馏和多视图一致性。CLI
在上一篇文章中,我们精读了 CLIP。CLIP 的核心思想是:使用大规模图文对训练图像编码器和文本编码器,让图像和文本进入同一个语义空间。它让 ViT 不再只是一个图像分类 backbone,而是成为多模态模型中的视觉编码器。这一篇我们继续看另一个非常重要的视觉基础模型:SAM,Segment Anything Model。如果说 CLIP 让 ViT 学会了“图像和语言如何对齐”,那么 SAM
论文提出使用 4 亿个互联网图文对进行预训练,通过“判断哪张图和哪句话匹配”的对比学习任务,学习可迁移的视觉表示,并支持 zero-shot 图像分类。BEiT 的核心思想是:先用视觉 tokenizer 把图像转换成离散 visual token,再让模型预测被 mask 位置对应的 visual token。DINO 的核心思想是:不使用人工标签,也不重建图像,而是通过 teacher-stu
在前面介绍 BEiT 时,我们提到了一个非常关键的概念:visual token,视觉 token。BEiT 的思想很像 BERT。BERT 会遮住文本中的一部分词,然后让模型预测被遮住的词;BEiT 则遮住图像中的一部分 patch,然后让模型预测这些位置对应的 visual token。BEiT 原论文明确指出,一张图像在预训练中有两种视图:一种是输入 Transformer 的 image
在上一篇文章中,我们精读了 MAE。MAE 的核心思想非常直接:把图像中的大部分 patch 遮住,只让编码器看到少量可见 patch,然后通过解码器重建被遮住区域的像素。从直觉上看,MAE 更像是一个“图像补全任务”:模型需要根据可见部分推测缺失区域长什么样。而 BEiT 的思路则更接近 NLP 中的 BERT。BERT 的预训练任务是 Masked Language Modeling,也就是遮
Masked Autoencoders for Image Modeling(MAE)是一类基于自监督学习的视觉表征学习方法,其核心思想是通过对输入图像进行随机掩码(mask),迫使模型在缺失大量信息的情况下重建原始图像,从而学习具有语义表达能力的视觉特征。本代码解析将以官方MAE实现为基础,从工程实现角度系统拆解其核心模块,包括数据处理流程、模型结构设计、Mask机制实现、Encoder-Dec
但是,当 backbone 结构逐渐成熟之后,一个新的问题开始出现:Transformer 能不能像 NLP 中的 BERT 一样,通过海量无标签数据进行自监督预训练?因为现实世界中的图像数据非常多,但真正带人工标注的数据其实很有限。在 NLP 中,BERT 的成功已经证明:通过 Masked Token Prediction,Transformer 可以从海量无标签文本中学习强大的语义表示。于是
如果单独看每一篇论文,读者可能会觉得每个模型都有自己的结构、公式和训练细节。Transformer 如何从一个图像分类模型,逐步发展成通用视觉骨干网络?







