
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
参考文章:https://blog.csdn.net/zhangdongren/article/details/83377272https://blog.csdn.net/yukinoai/article/details/84197930https://www.jianshu.com/p/b3dbf913b421https://www.jiqizhixin.com/article...
目标检测算法-transformer系列-ViT(Vision Transformer)(附论文和源码)

YOLOv3源码解析1-代码整体结构YOLOv3源码解析2-数据预处理Dataset()YOLOv3源码解析3-网络结构YOLOV3()YOLOv3源码解析4-计算损失compute_loss()YOLOv3源码解析5-损失函数理论部分参照大神的文章学习:简书:关于YOLOv3的一些细节github:源代码作者YOLOV3知乎:【YOLO】yolo v1到yo...
目录CVPR2019: 使用GIoU作为检测任务的LossGIoUGIoU作为BBox回归的损失实际运行https://zhuanlan.zhihu.com/p/57992040CVPR2019: 使用GIoU作为检测任务的Loss本文是对CVPR2019论文Generalized Intersection over Union: A Metric and ...
目标检测算法-YOLOV5解析(附论文与源码)

深度学习中神经网络的几种权重初始化方法https://zhuanlan.zhihu.com/p/25110150https://blog.csdn.net/attitude_yu/article/details/81458172https://www.cnblogs.com/hutao722/p/9796884.html目录梯度爆炸和梯度消失的原因一、常数初始化(...
参考文章:https://blog.csdn.net/zhangdongren/article/details/83377272https://blog.csdn.net/yukinoai/article/details/84197930https://www.jianshu.com/p/b3dbf913b421https://www.jiqizhixin.com/article...
我们探究了能否将自然语言处理(NLP)中与任务无关的网络规模预训练的成功经验迁移至其他领域。研究发现,采用该模式后,计算机视觉领域也出现了类似的现象,同时我们还探讨了这一研究方向所带来的社会影响。为优化训练目标,CLIP 模型在预训练过程中学习执行多种任务,而后可通过自然语言提示利用这种任务学习能力,实现对众多现有数据集的零样本迁移。在足够的规模下,尽管该方法仍有很大的改进空间,但其性能已可与特定

本文提出了一种极简的视觉-语言预训练架构——视觉-语言Transformer(ViLT)。ViLT能够与依赖复杂卷积视觉嵌入网络(如Faster R-CNN和ResNets)的模型竞争。我们呼吁未来视觉-语言预训练研究更关注Transformer模块内的多模态交互设计,而非陷入仅提升单模态嵌入能力的“军备竞赛”。

我们提出了BLIP,这是一种新的视觉-语言预训练(VLP)框架,在广泛的下游视觉-语言任务上具有最先进的性能,包括基于理解和基于生成的任务。BLIP使用从大规模噪声图像-文本对中引导构建的数据集,通过注入多样化的合成字幕并去除噪声字幕,对编码器-解码器混合多模态模型进行预训练。我们发布了引导构建的数据集,以促进未来的视觉-语言研究。
