logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文笔记】VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

提出了一种统一的视觉语言预训练模型(VLMO),该模型既可以用作双编码器,对检索任务的图像和文本进行单独编码,也可以用作融合编码器,对分类任务的图像-文本对的深度交互进行建模。

文章图片
#论文阅读
【蒸馏】目标检测蒸馏的不完全整理和个人笔记

其实仔细想想模型蒸馏的监督信号无非来自原先损失函数(分类,bbox)或者是相关组件(backbone,FPN),在这里我不太想用传统的logit蒸馏和feature map蒸馏来表示上面两种蒸馏方式, 主要是现在的目标检测的蒸馏大多数是围绕相关组件和分类,对于bbox这一目标检测的重要组成部分的论文相对较少。如果没有NCKD,类的相似度(或者突出的暗知识)的信息是不可用的,所以TCKD的梯度不能起

文章图片
#计算机视觉#人工智能
【笔记】AutoModelForCausalLM

初学者肯定有很多不对头的地方,麻烦大家多多指点!!!

文章图片
#python
【论文笔记】BLIP: Bootstrapping Language-Image Pre-training forUnified Vision-Language Understanding and

(1) 模型视角:大多数方法要么采用基于编码器的模型,要么采用编码器-解码器模型。基于编码器的模型不太容易直接转移到文本生成任务(例如,图像字幕),而编码器-解码器模型尚未成功用于图像文本检索任务。(2)数据集j角度:存在噪声,训练次优基于编码器的模型:CLIP,缺少decoder对文本生成的能力相对较弱采用编码器-解码器:SimVLM。

文章图片
#论文阅读
到底了