乄洛尘个人主页

@qq_38929105

乄洛尘

2022-11-28 20:41:47 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

解决pythia中 raise InvalidGitRepositoryError(epath) 和 ValueError: Reference at ‘refs/heads/maste等一系列问题

问题描述: 在用pythia 训练模型时，出现：2021-03-23T15:41:44 ERROR: /media/XXX/D20187A13362E67A/Run_python_module/mmf-0.3.1Traceback (most recent call last):File "tools/run.py", line 94, in <module>run()File "to

#git #python #linux +1

Vit 中的 Token 改进版本：Token Mreging: Your Vit But Faster 论文阅读笔记

本文引入一种 Token 融合的方法（Token Merging — ToMe），在无需额外训练的情况下增强现有 ViT 的性能。具体来说在 transformer 中使用一个通用且轻量化的匹配算法来逐步融合相似的 tokens。在图像、视频、音频上的性能绝佳。

#论文阅读

DETR 系列有了新发现？DETRs with Hybrid Matching 论文阅读笔记

一对一匹配是 DETR 建立端到端训练的关键，以至目标检测不再需要 NMS了。然而更少的 queries 被赋值为正样本，导致一对一匹配显著减低了正样本的有效训练。于是提出混合匹配计划：在训练中结合原始的一对一匹配分支和辅助的一对多匹配分支。在推理过程中，仅采用原始的一对一匹配分支，维持端到端的优点以及 DETR 相同推理效率的同时，提高精度。本文提出的方法名为 H-DETR，提升了一系列包括 D

#论文阅读 #深度学习 #人工智能 +1

开放目标检测Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection 论文阅读笔记

本文提出一个开放目标检测器 Grounding DINO，采用基于 Transformer 的 DINO 框架+预训练，能够检测任意输入类别或表达式对应的目标。开放目标检测的关键在于引入语言到一个闭集的检测器中，从而实现开放的概念泛化。于是本文提出将闭集的检测器划分为三个阶段并提出一种轻量化的融合方法，包含一个特征增强器，一个语言引导的 query 选择，一个跨模态的检测器用于跨模态融合。之前的工

#目标检测 #论文阅读

Transformer 系列 Interpret Vision Transformers as ConvNets with Dynamic Convolutions 论文阅读笔记

在 Vision Transformer 和 CNNs 间总存在争论：哪个网络好。而本文将 Vision Transformer 视为带动态卷积的 CNNs，这能够将现有的 Transformer 和动态 CNNs 统一为一个框架并逐点比较它们的设计。从两个方面来论证上述的研究：检查了 vision Transformer 中 softmax 结构，发现其能够被广泛使用的 CNNs 模块代替，例如

#transformer #论文阅读

RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 论文阅读笔记

Referring Image Segmentation 指代图像分割旨在在像素水平上分割出自然表达式所指的特定目标。最近一些基于 Transformer 的方法凭借着注意力机制生成上下文 query，虽然很是成功，但是未能理解复杂表达式中的上下文。于是本文受到 masked autoencoder (MAE) 的启发提出 bidirectional token-masking autoencod

#论文阅读

VL 任务 The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task 论文阅读笔记

思维链的效果在语言任务中发挥了重要作用，特别是在需要复杂的感知和推理的视觉-语言任务中。基于人类处理信号的过程，本文提出 “描述后再决定” 的策略。这一策略提升了大概 50% 的性能，为视觉-语言中的推理任务奠定了坚实的基础。

#论文阅读 #人工智能 #图像处理 +1

视觉+语言预训练+微调：CAVL: Learning Contrastive and Adaptive Representations of Vision and Language 论文笔记

首先说明视觉语言预训练的目的、作用。指出目前在预训练阶段存在语言混淆问题，同时需要大量的计算资源在下游任务上微调。本文提出简单、有效的学习对比视觉语言的自适应表示方法CAVision andLanguage，即 CAVL。具体来说，在预训练过程中引入一组成对的对比损失来对齐整个句子和图像，在微调阶段引入两个轻量化的自适应网络来减少模型的参数及节约计算资源，加快训练速度。在 6 个数据集 VQA、V

#论文阅读 #深度学习 #计算机视觉

2023 Mask R-CNN 改进：DynaMask: Dynamic Mask Selection for Instance Segmentation 论文笔记

本周更新的第二篇论文阅读，2023年每周一篇博文，还剩5篇未补，继续加油~论文地址：DynaMask: Dynamic Mask Selection for Instance Segmentation：https://arxiv.org/abs/2303.07868代码地址：https://github.com/lslrh/DynaMask收录于：CVPR 2023欢迎关注，主页更多干活，持续输出

#论文阅读 #人工智能 #机器学习

Anaconda/pip 更换阿里源，助力 conda create -n 虚拟环境搭建

Anaconda/pip 更换为阿里源，助力 conda create -n 虚拟环境搭建

#pip

共 12 条

请选择