logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

第二篇:深度学习之CUDA配置指南(Linux-ubuntu16.04)~《深度学习炼丹手册-本人亲身实践踏出来的一条菜鸟之路》-2

第二篇:深度学习环境配置指南(Linux-ubuntu16.04)一、安装Anaconda:一、安装Anaconda:Anaconda的简介就不多说了,大家自行百度即可,这里说一下安装。首先下载Anaconda镜像,这里给出几个常用的镜像链接,大家对应着下载,查看。1、Anaconda官网(速度慢,不推荐)2、清华源镜像3、ubuntu系统内核下载(一般在误卸载ubuntu内核后才可能需要用到,血

文章图片
#ubuntu#深度学习#linux
开放词汇视觉定位 OV-VG: A Benchmark for Open-Vocabulary Visual Grounding 论文笔记

开放词汇检测旨在检测那些未出现在预定词汇中的目标,类似的任务有视觉定位 Visual Grounding (VG)。然而当前的基础模型虽然在很多视觉语言任务上表现很好,但是在开放视觉定位 open-vocabulary visual grounding (OV-VG) 上还没有拿得出手的工作。

文章图片
#人工智能#论文阅读
零样本参考图像分割 ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension 论文阅读笔记

重新训练一个参考表达式理解模型 referring expression comprehension (ReC) 以适应新的目标域需要收集参考表达式和相应的 bounding boxes(BBox)。虽然大规模预训练模型在其他的目标域上可能会有用,但是以 Zero-shot 的方式应用在 ReC 这类复杂任务上效果不太好。本文提出一种 Zero-shot 模型 ReCLIP 用于 ReC,其中包含

文章图片
#论文阅读#人工智能#计算机视觉 +1
无卷积结构(那就纯ransformer)的参考图像分割:ReSTR: Convolution-free Referring Image Segmentation Using Transformers

快速过一篇论文: ReSTR: Convolution-free Referring Image Segmentation Using Transformers,新颖的话也谈不上多新颖,目前的 Transformer 都快烂大街了,其中的一些结构可以借鉴下,说不定是涨点神器。

文章图片
#深度学习#transformer#计算机视觉
目标检测+实例分割+姿态估计三合一:LSNet: Location-Sensitive Visual Recognition with Cross-IOU Loss论文笔记

目标检测+实例分割+姿态估计三合一:LSNet: Location-Sensitive Visual Recognition with Cross-IOU Loss论文笔记一、Abstract二、引言三、相关工作四、方法描述1、Location Sensitive Visual Recognition2、LSNet: A Unified Framework3、Cross IOU Loss4、Pyr

文章图片
#深度学习#神经网络#计算机视觉 +1
Dealing with Missing Modalities in the VQ Answer-Difference Prediction Task through知识蒸馏 笔记

Dealing with Missing Modalities in the Visual Question Answer-Difference Prediction Task through Knowledge Distillation 论文笔记一、Abstract二、引言三、相关工作1、Answer Difference in VQA Datasets2、Generalized Knowled

三行代码计算模型参数量

三行代码计算并输出模型参数量

#python#深度学习
PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记

目前的参考图像分割一般不去直接预测目标的 mask,而是作为一个多边形序列生成任务。本文提出来一种能直接预测精确的几何位置坐标的基于回归的解码器,摒弃了之前那种需要将坐标量化到某个固定格子上的做法。不仅在常规的数据集上表现很好,而且泛化到参考视频图像分割上仍然牛皮。

文章图片
#论文阅读#深度学习#计算机视觉
RIS系列:Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation 论文阅读笔记

首先指出 Referring image segmentation(RIS)的定义,然后表明问题:最近的方法大量使用 Transformer,其中注意力机制仅采用语言输入作为注意力的权重计算方式,而输出的特征中却并未显式地融合语言特征。介于其输出主要由视觉信息主导,限制了模型全面理解多模态信息,从而导致后续 mask 解码的不确定性。于是本文提出 Multi-Modal Mutual Attent

文章图片
#论文阅读#深度学习#计算机视觉 +1
RIS 系列 TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer 论文阅读笔记

本文探索基于 Transformer 的网络用于视觉定位。之前方法通常解决的是视觉定位中的核心问题 ,例如采用手工设计的机制进行多模态融合及推理,缺点是方法复杂且在特定数据分布上容易过拟合。于是本文首先提出 TransVG,通过 Transformer 建立起多模态间的关联,并直接通过定位到指代目标来回归出 Box 的坐标。实验表明复杂的融合模块能被堆叠的 Transformer 编码器层替代。

文章图片
#transformer#论文阅读
    共 31 条
  • 1
  • 2
  • 3
  • 4
  • 请选择