简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在 Vision Transformer 和 CNNs 间总存在争论:哪个网络好。而本文将 Vision Transformer 视为带动态卷积的 CNNs,这能够将现有的 Transformer 和动态 CNNs 统一为一个框架并逐点比较它们的设计。从两个方面来论证上述的研究:检查了 vision Transformer 中 softmax 结构,发现其能够被广泛使用的 CNNs 模块代替,例如
Referring Image Segmentation 指代图像分割旨在在像素水平上分割出自然表达式所指的特定目标。最近一些基于 Transformer 的方法凭借着注意力机制生成上下文 query,虽然很是成功,但是未能理解复杂表达式中的上下文。于是本文受到 masked autoencoder (MAE) 的启发提出 bidirectional token-masking autoencod
思维链的效果在语言任务中发挥了重要作用,特别是在需要复杂的感知和推理的视觉-语言任务中。基于人类处理信号的过程,本文提出 “描述后再决定” 的策略。这一策略提升了大概 50% 的性能,为视觉-语言中的推理任务奠定了坚实的基础。
首先说明视觉语言预训练的目的、作用。指出目前在预训练阶段存在语言混淆问题,同时需要大量的计算资源在下游任务上微调。本文提出简单、有效的学习对比视觉语言的自适应表示方法CAVision andLanguage,即 CAVL。具体来说,在预训练过程中引入一组成对的对比损失来对齐整个句子和图像,在微调阶段引入两个轻量化的自适应网络来减少模型的参数及节约计算资源,加快训练速度。在 6 个数据集 VQA、V
本周更新的第二篇论文阅读,2023年每周一篇博文,还剩5篇未补,继续加油~论文地址:DynaMask: Dynamic Mask Selection for Instance Segmentation:https://arxiv.org/abs/2303.07868代码地址:https://github.com/lslrh/DynaMask收录于:CVPR 2023欢迎关注,主页更多干活,持续输出
Anaconda/pip 更换为阿里源,助力 conda create -n 虚拟环境搭建
首先表明细胞分割对于生物分析和癌症监视有着重要作用,接着指出现有的一些挑战:大量的半透明细胞簇重叠使得彼此边界混乱;原子核拟态和碎片存在混淆(太专业的术语不好翻译)。于是本文提出一种解耦合-重组策略:De-overlapping Network (DoNet):提出一种双路径区域分割模块来显式地将细胞簇解耦合为交叉区域;提出一种重组模块来引导整合语义一致性的互补区域;
指代图像分割 Referring image segmentation (RIS) 旨在产生高质量的 mask,现有的方法总是需要采用迭代学习的方法,依赖于 RNNs 或堆叠的注意力层来提炼视觉-语言特征。但基于 RNN 的方法依赖于特定的编码器,基于注意力的方法收益很低。于是本文引入渐进式地学习多模态特征的方法,核心 idea 是利用一个持续更新的 query 作为目标的表示,并在每个迭代步中加
本文提出基于 Transformer 的方法用于视觉定位。不像现有的先取出 proposals 后排序的方法,极度依赖于预训练的目标检测器,或者无 proposal 的框架方法,通过融合文本化的 embedding 更新一组离线的单阶段检测器。本文提出的方法Visual Grounding with TRansformers VGTR 建立在 Transformer 框架之上,独立于预训练检测器和