
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
from clip to dino论文阅读
论文阅读想法:了解了dino这种视觉基础大模型的论文,又阅读了clip的文章,想着能不能替换clip中的image encoder部分,于是就找到了这一篇文章。
自监督学习的多模态大模型结构slip
笔者最近开始入门多模态大模型,阅读了clip的文章,针对clip文章提出了几个问题,其中一个问题便是:clip是基于对比学习的损失,但是对于传统的视觉领域大模型的预训练,,我们有两种方法,一种为对比学习,一种为生成式的学习。如果我将生成式学习/对比学习的image encoder放在多模态的领域中,会不会有更好的效果?带着这条疑问,我找到了slip这篇论文,通过自监督来进行学习。首先其他的不看,我
dinov3论文阅读笔记
在大模型训练的任务中,核心问题在于长时间训练导致“块级特征丢失”现象:随着训练时间的延长,分类任务显著提升,效果明显变好,但是语义分割任务(像素级任务)显著下降。虽然采用了分层的策略,即libot与dino损失,但是随着时间推移,全局损失会占据主导地位,导致局部一致性(ibot)的退化。解读Gram矩阵是一个衡量不同特征之间关系的矩阵。对于一个由P个patch特征组成的矩阵X(尺寸为P×d),其G
segement anything 论文阅读笔记
本人个人学习笔记,如有错误欢迎指正,欢迎友好交流讨论
到底了