FightingCV 个人主页

@Jason_android98

FightingCV

2023-02-18 14:13:15 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【文末赠书】 | 一文看尽目标检测经典模型！

如何从图像中解析出可供计算机理解的信息，是机器视觉的中心问题。深度学习模型由于其强大的表示能力，加之数据量的积累和计算力的进步，成为机器视觉的热点研究方向。那么，如何理解一张图片？根据后续任务的需要，有三个主要的层次。图像理解的三个层次一是分类（Classification），即是将图像结构化为某一类别的信息，用事先确定好的类别(string)或实例ID来描述图片。这一任务是最简单、最基础的图像理

#目标检测 #计算机视觉 #深度学习

ECCV2022 | 人大提出轻量级基于注意力的特征融合机制，在多个公开数据集上有效！代码已开源！

对于文本视频检索，作者提出了 LAFF，一个非常简单的特征融合块。LAFF 比 Multi-head Self-Attention 更有效，但参数要少得多。此外，LAFF 产生的注意力权重可用于解释单个视频/文本特征对跨模态匹配的贡献。因此，权重可用于特征选择，以构建更紧凑的视频检索模型。基于 LAFF 的视频检索模型超越了 MSR-VTT、MSVD、TGIF、VATEX 和 TRECVID A

#开源 #人工智能 #深度学习

博士生做科研想 idea 发现早就有人做过了，该怎么调整心态？

边看文献，边在想idea，想到一个觉得很不错的想法开始做，个人有每天抽一部分时间看文献的习惯，然后做到一半突然看到文献几年前就实现了我的想法，瞬间心态崩溃，好几天都没精打采的。发生好几次这种情况，积极性也在一步步减退，该怎么调整呢？

#深度学习

ECCV2022 | RU&谷歌提出用CLIP进行zero-shot目标检测！

【写在前面】构建鲁棒的通用对目标测框架需要扩展到更大的标签空间和更大的训练数据集。然而，大规模获取数千个类别的标注成本过高。作者提出了一种新方法，利用最近视觉和语言模型中丰富的语义来定位和分类未标记图像中的对象，有效地生成用于目标检测的伪标签。从通用的和类无关的区域建议（region proposal）机制开始，作者使用视觉和语言模型将图像的每个区域分类为下游任务所需的任何对象类别。作者演示了生成

#程序人生

深度学习pytorch训练代码模板(个人习惯)

来源：https://zhuanlan.zhihu.com/p/396666255从参数定义，到网络模型定义，再到训练步骤，验证步骤，测试步骤，总结了一套较为直观的模板。目录如下：导入包以及设置随机种子以类的方式定义超参数定义自己的模型定义早停类(此步骤可以省略)定义自己的数据集Dataset,DataLoader实例化模型，设置loss，优化器等开始训练以及调整lr绘图预测一、导入包以及设置随机

#深度学习 #pytorch #python

IJCAI 2022｜边界引导的伪装目标检测模型BGNet

本篇分享IJCAI 2022 论文『Boundary-Guided Camouﬂaged Object Detection』，内大&ETH&石大&UAE提出边界引导的伪装目标检测模型BGNet，性能SOTA！代码已开源！详细信息如下：论文地址：https://arxiv.org/abs/2207.00794代码地址：https://github.com/thograce/B

#人工智能

11%的参数就能优于Swin，微软提出快速预训练蒸馏方法TinyViT

【写在前面】视觉Transformer(VIT)由于其卓越的建模能力，近年来在计算机视觉领域引起了极大的关注。然而，大多数流行的VIT模型都受到大量参数的限制，限制了它们在资源有限的设备上的适用性。为了缓解这一问题，作者提出了TinyViT，这是一种新的微小而高效的小视觉Transformer家族，使用本文提出的快速蒸馏框架在大规模数据集上进行预训练。其核心思想是将知识从大型预训练的模型转移到小型

#人工智能

深度学习pytorch训练代码模板(个人习惯)

#深度学习 #pytorch #python

训练好的深度学习模型是怎么部署的？

为了保证框架的可扩展性，MDL对 layer 层进行了抽象，方便框架使用者根据模型的需要，自定义实现特定类型的层，使用 MDL 通过添加不同类型的层实现对更多网络模型的支持，而不需要改动其他位置的代码。一般来说，参数修剪和共享，低秩分解和知识蒸馏方法可以用于全连接层和卷积层的CNN，但另一方面，使用转移/紧凑型卷积核的方法仅支持卷积层。对机器学习模型的训练是一项很重的工作，Core ML 所扮演的

#深度学习 #caffe #人工智能

TPAMI2022 | Dual ViT！京东（梅涛）提出双路径ViT结构，大大降低计算开销！

在这项工作中，作者提出了双视觉Transformer（DualViT），这是一种新的多尺度ViT主干，它在两个交互路径中新颖地模拟了自注意力学习：用于学习内部像素级细节的像素路径和从输入中提取整体全局语义信息的语义路径。从语义路径中学习的语义标记进一步作为高级语义，以促进像素路径中的局部特征提取。通过这种方式，增强的自注意力信息沿着两条路径并行传播，以寻求更准确的延迟权衡。各种视觉任务的大量实证结

#深度学习 #计算机视觉 #transformer

共 18 条

请选择