【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 8 日论文合集）

旅途中的宽~

577人浏览 · 2023-08-14 11:19:53

旅途中的宽~ · 2023-08-14 11:19:53 发布

文章目录

一、检测相关(13篇)

一、检测相关(13篇)

1.1 FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels

FSD V2：利用虚拟体素改进完全稀疏3D目标检测

https://arxiv.org/abs/2308.03755

在这里插入图片描述
基于激光雷达的完全稀疏架构引起了越来越多的关注。 FSDv1 是一款脱颖而出的代表作品，尽管结构复杂且设计精巧，但仍实现了令人印象深刻的功效和效率。在本文中，我们提出了 FSDv2，这是一种演变，旨在简化之前的 FSDv1，同时消除其手工制作的实例级表示引入的归纳偏差，从而促进更好的普遍适用性。为此，我们引入了 \textbf{virtual voxels} 的概念，它接管了 FSDv1 中基于聚类的实例分割。虚拟体素不仅解决了完全稀疏检测器中臭名昭著的中心特征缺失问题，而且还赋予该框架更优雅和简化的方法。因此，我们开发了一套组件来补充虚拟体素概念，包括虚拟体素编码器、虚拟体素混合器和虚拟体素分配策略。通过实证验证，我们证明虚拟体素机制在功能上类似于 FSDv1 中的手工聚类，但更通用。我们在三个大型数据集上进行了实验：Waymo Open Dataset、Argoverse 2 数据集和 nuScenes 数据集。我们的结果展示了所有三个数据集上最先进的性能，突出了 FSDv2 在远程场景中的优越性及其在不同场景中实现竞争性能的普遍适用性。此外，我们提供全面的实验分析来阐明 FSDv2 的工作原理。

1.2 Dimensionality Reduction for Improving Out-of-Distribution Detection in Medical Image Segmentation

改进医学图像分割中非分布检测的降维方法

https://arxiv.org/abs/2308.03723

在这里插入图片描述
众所周知，临床部署的分割模型在训练分布之外的数据上会失败。由于这些模型在大多数情况下都表现良好，因此必须在推理时检测分布外 (OOD) 图像，以防止自动化偏差。这项工作将马哈拉诺比斯距离事后应用于 Swin UNETR 模型的瓶颈特征，该模型在 T1 加权磁共振成像上分割肝脏。通过主成分分析减少瓶颈特征的维度，以高性能和最小的计算负载检测 OOD 图像。

1.3 FeatEnHancer: Enhancing Hierarchical Features for Object Detection and Beyond Under Low-Light Vision

FeatEnHancer：增强弱光视觉下目标检测及超越的层次特征

https://arxiv.org/abs/2308.03594

在这里插入图片描述
在弱光视觉下，为下游任务提取有用的视觉线索尤其具有挑战性。先前的工作通过将视觉质量与机器感知相关联或设计需要对合成数据集进行预训练的照明退化转换方法来创建增强的表示。我们认为，优化与下游任务丢失相关的增强图像表示可以产生更具表现力的表示。因此，在这项工作中，我们提出了一个新颖的模块 FeatEnHancer，它使用由任务相关损失函数引导的多头注意力来分层组合多尺度特征，以创建合适的表示。此外，我们的尺度内增强提高了在每个尺度或级别提取的特征的质量，并以反映不同尺度的特征对当前任务的相对重要性的方式组合特征。 FeatEnHancer 是一个通用的即插即用模块，可以合并到任何低光视觉管道中。我们通过大量实验证明，使用 FeatEnHancer 生成的增强表示显着且持续地改善了多项弱光视觉任务的结果，包括暗物体检测（ExDark 上 +5.7 mAP）、人脸检测（DARK FACE 上 +1.5 mAP）、夜间语义分割（ACDC 上+5.1 mIoU）和视频对象检测（DarkVision 上+1.8 mAP），突出了在低光视觉下增强分层特征的有效性。

1.4 Improving Mass Detection in Mammography Images: A Study of Weakly Supervised Learning and Class Activation Map Methods

改进乳腺摄影图像的质量检测：弱监督学习和类激活映射方法的研究

https://arxiv.org/abs/2308.03486

在这里插入图片描述
近年来，弱监督模型有助于使用乳腺 X 线摄影图像进行大规模检测，减少对像素级注释的需求。然而，文献中的大多数现有模型都依赖类激活图（CAM）作为激活方法，忽视了探索其他激活技术的潜在好处。这项工作提出了一项研究，结合最先进的方法探索和比较不同的激活图，以进行乳腺 X 线摄影图像的弱监督训练。具体来说，我们研究了 GMIC 模型框架内的 CAM、GradCAM、GradCAM++、XGradCAM 和 LayerCAM 方法，用于乳房 X 线摄影图像中的质量检测。该评估是在 VinDr-Mammo 数据集上进行的，利用指标准确度、真阳性率 (TPR)、假阴性率 (FNR) 和每幅图像的假阳性率 (FPPI)。结果表明，在训练和测试阶段使用不同的激活图策略可以改进模型。通过这种策略，我们改进了 GMIC 方法的结果，降低了 FPPI 值并提高了 TPR。

1.5 Exploring the Physical World Adversarial Robustness of Vehicle Detection

探索车辆检测的物理世界对抗稳健性

https://arxiv.org/abs/2308.03476

在这里插入图片描述
对抗性攻击可能会损害现实世界检测模型的稳健性。然而，由于资源密集型实验，在现实条件下评估这些模型带来了挑战。虚拟模拟提供了一种替代方案，但缺乏标准化基准阻碍了进展。为了解决这个问题，我们提出了一种使用 CARLA 模拟器的创新即时级数据生成管道。通过这个管道，我们建立了离散和连续即时级（DCI）数据集，从而能够进行涉及三种检测模型和三种物理对抗攻击的综合实验。我们的研究结果强调了对抗条件下不同模型的表现。 Yolo v6 表现出了非凡的弹性，平均精度 (AP) 仅略有 6.59% 的平均下降。相比之下，ASA 攻击的平均 AP 减少量高达 14.51%，是其他算法效果的两倍。我们还注意到，静态场景会产生更高的识别 AP 值，并且结果在不同的天气条件下保持相对一致。有趣的是，我们的研究表明，对抗性攻击算法的进步可能正在接近其“局限性”。总之，我们的工作强调了对抗性攻击在现实世界中的重要性，并引入了 DCI 数据集作为通用基准。我们的研究结果为增强检测模型的稳健性提供了宝贵的见解，并为对抗性攻击领域的未来研究工作提供了指导。

1.6 Deepfake Detection: A Comparative Analysis

深伪检测：一种比较分析

https://arxiv.org/abs/2308.03471

在这里插入图片描述
本文对深度伪造检测的监督模型和自监督模型进行了全面的比较分析。我们在四个基准（FakeAVCeleb、CelebDF-V2、DFDC 和 FaceForensics++）上评估了八个监督深度学习架构和两个基于 Transformer 的模型，这些模型使用自监督策略（DINO、CLIP）进行预训练。我们的分析包括数据集内和数据集间评估，检查最佳性能模型、泛化能力和增强的影响。我们还研究了模型大小和性能之间的权衡。我们的主要目标是深入了解不同深度学习架构（变压器、CNN）、训练策略（监督、自监督）和 Deepfake 检测基准的有效性。这些见解可以帮助指导开发更准确、更可靠的深度伪造检测系统，这对于减轻深度伪造对个人和社会的有害影响至关重要。

1.7 RoadScan: A Novel and Robust Transfer Learning Framework for Autonomous Pothole Detection in Roads

RoadScan：一种新颖稳健的自主道路坑洞检测迁移学习框架

https://arxiv.org/abs/2308.03467

在这里插入图片描述
本研究论文提出了一种使用深度学习和图像处理技术进行坑洞检测的新方法。所提出的系统利用 VGG16 模型进行特征提取，并利用具有三元组损失的自定义 Siamese 网络（称为 RoadScan）。该系统旨在解决道路坑洼这一严重问题，该问题给道路使用者带来重大风险。因道路坑洼而引发的事故已发生多起。虽然需要彻底清除坑洼，但这是一个耗时的过程。因此，一般道路使用者应该能够在安全距离内检测坑洼以避免损坏。现有的坑洞检测方法严重依赖于目标检测算法，由于道路和坑洞的结构和纹理的相似性，该算法往往很容易失败。此外，这些系统利用数百万个参数，从而使得该模型难以在普通公民的小规模应用中使用。通过分析不同的图像处理方法和各种高性能网络，所提出的模型在准确检测坑洼方面取得了显着的性能。准确性、EER、精度、召回率和 AUROC 等评估指标验证了系统的有效性。此外，所提出的模型通过利用更少的参数和数据进行训练，展示了计算效率和成本效益。该研究强调了技术在交通运输领域的重要性及其提高道路安全和便利性的潜力。该模型提出的网络具有 96.12% 的准确率、3.89% 的 EER 和 0.988 AUROC 值，与其他最先进的作品相比具有很强的竞争力。

1.8 FireFly A Synthetic Dataset for Ember Detection in Wildfire

Firefly：一种用于Wildfire烟尘检测的合成数据集

https://arxiv.org/abs/2308.03164

在这里插入图片描述
本文介绍了“FireFly”，这是一个使用虚幻引擎 4 (UE4) 创建的用于 ember 检测的合成数据集，旨在克服当前 ember 特定训练资源的缺乏。为了创建数据集，我们提供了一个工具，可以自动生成具有可调整参数的合成标记数据集，从而实现各种环境条件下的数据多样性，使数据集既多样化又可根据用户需求进行定制。我们总共生成了 19,273 个帧，用于在四种流行的目标检测模型上评估 FireFly。为了进一步减少人为干预，我们利用经过训练的模型为现实生活中的 Ember 框架创建半自动标记流程。此外，我们证明，与专门在小型真实数据集上训练的模型相比，真实世界野火场景中的平均精度 (mAP) 提高了 8.57%。

1.9 ECT: Fine-grained Edge Detection with Learned Cause Tokens

ECT：基于学习原因令牌的细粒度边缘检测

https://arxiv.org/abs/2308.03092

在这里插入图片描述
在本研究中，我们解决了具有挑战性的细粒度边缘检测任务，即分别预测由反射率、照明、法线和深度变化引起的特定边缘。现有方法利用多尺度卷积网络，但在三个方面受到限制：（1）卷积是局部算子，而识别边缘形成的原因需要查看远处的像素。 (2)特定于边缘原因的先验被固定在预测头中。（3）使用单独的网络进行通用和细粒度的边缘检测，并且可能会违反它们之间的约束。为了解决这三个问题，我们提出了一个基于变压器的两级网络，顺序预测通用边缘和细粒度边缘，由于注意力机制，该网络具有全局感受野。在原因感知解码器设计中，边缘原因的先验知识被表述为四个可学习的原因标记。此外，为了促进通用边缘和细粒度边缘之间的一致性，利用了边缘聚合和对齐损失。我们在公共基准 BSDS-RIND 和几个新派生的基准上评估我们的方法，并取得了新的最先进的结果。

1.10 Introducing Feature Attention Module on Convolutional Neural Network for Diabetic Retinopathy Detection

卷积神经网络在糖尿病视网膜病变检测中引入特征注意模块

https://arxiv.org/abs/2308.02985

在这里插入图片描述
糖尿病视网膜病变（DR）是糖尿病患者失明的主要原因。深度学习模型在自动检测 DR 方面显示出了有希望的结果。在目前的工作中，我们提出了一种新方法，将特征注意模块与预训练的 VGG19 卷积神经网络 (CNN) 集成，以实现更准确的 DR 检测。在这里，预训练网络使用所提出的特征注意块进行微调。所提出的模块旨在利用眼底图像各个区域的补充信息来增强 CNN 的判别能力。所述特征注意模块结合了一种注意机制，该机制选择性地突出显示图像中的显着特征并将其与原始输入融合。同时学习特征的注意力权重，然后在特征注意力块内组合注意力调制的特征，有助于网络专注于相关信息的能力，同时减少噪声或不相关特征的影响。所提出方法的性能已在广泛使用的糖尿病视网膜病变分类数据集（例如 APTOS（亚太远程眼科学会）DR 数据集）上进行了评估。将结果与有/无注意力模块以及其他最先进的方法进行比较。结果证实，融合模块（特征注意力模块与 CNN 融合）的引入提高了 DR 检测的准确率，准确率达到 95.70%。

1.11 Focus the Discrepancy: Intra- and Inter-Correlation Learning for Image Anomaly Detection

聚焦差异：图像异常检测的内相关学习和互相关学习

https://arxiv.org/abs/2308.02983

在这里插入图片描述
人类通过两个方面识别异常：较大的补丁表示差异和较弱的补丁与正常补丁的相关性。然而，之前的AD方法并没有充分结合这两个互补的方面来设计AD模型。为此，我们发现 Transformer 可以理想地满足这两个方面，因为它在块级表示和块间相关性的统一建模方面具有强大的功能。在本文中，我们提出了一种新颖的 AD 框架：FOcus-the-Discrepancy (FOD)，它可以同时发现异常的补丁间、内部和内部差异。我们方法的主要特点是我们将 Transformer 中的自注意力映射更新为内相关（I2Correlation）。 I2Correlation 包含一个双分支结构，首先明确地建立图像内和图像间相关性，然后融合两个分支的特征来突出异常模式。为了自适应地学习内部相关性和相互相关性，我们提出基于 RBF 核的目标相关性作为自监督学习的学习目标。此外，我们引入熵约束策略来解决优化中的模式崩溃问题，并进一步放大正常与异常的可区分性。对三个无监督的现实世界 AD 基准的广泛实验表明了我们方法的卓越性能。

1.12 Improving Human-Object Interaction Detection via Virtual Image Learning

利用虚拟图像学习改进人-物交互检测

https://arxiv.org/abs/2308.02606

在这里插入图片描述
人与物体交互（HOI）检测旨在理解人与物体之间的交互，在高级语义理解任务中发挥着重要作用。然而，大多数工作都追求设计更好的架构以更有效地学习整体特征，而忽略了交互对象对类别的长尾性质。在本文中，我们建议通过虚拟图像学习（VIL）来减轻这种不平衡分布的影响。首先，提出了一种新颖的标签到图像方法，即多步骤图像创建（MUSIC），以创建与真实图像具有一致分布的高质量数据集。在此阶段，根据具有特定特征的提示生成虚拟图像，并通过多重过滤过程进行选择。其次，我们使用虚拟和真实图像在师生框架下训练模型。考虑到一些虚拟图像的初始标签不准确且不充分，我们设计了自适应匹配和过滤（AMF）模块来构造伪标签。我们的方法独立于 HOI 检测器的内部结构，因此只需训练 10 个额外的 epoch，就可以将其与现成的方法相结合。在我们的方法的帮助下，多种方法获得了显着的改进，并且在两个基准上取得了新的最先进的结果。

1.13 Early Detection and Localization of Pancreatic Cancer by Label-Free Tumor Synthesis

无标记肿瘤合成技术对胰腺癌的早期检测和定位

https://arxiv.org/abs/2308.03008

在这里插入图片描述
胰腺癌的早期发现和定位可以将患者的 5 年生存率从 8.5% 提高到 20%。人工智能 (AI) 可以帮助放射科医生在早期阶段检测胰腺肿瘤。训练人工智能模型需要大量带注释的示例，但获得早期肿瘤的 CT 扫描的可用性受到限制。这是因为早期肿瘤可能不会引起任何症状，从而延迟检测，而且肿瘤相对较小，在 CT 扫描中人眼几乎看不见。为了解决这个问题，我们开发了一种肿瘤合成方法，可以在健康胰腺中合成大量小胰腺肿瘤的例子，而无需手动注释。我们的实验表明，通过对合成肿瘤进行训练的人工智能，通过灵敏度和特异性测量，胰腺肿瘤的总体检出率与真实肿瘤的检出率相当。更重要的是，我们的方法对小肿瘤的检出率要高得多。如果人工智能接受合成肿瘤 CT 扫描和晚期带注释大肿瘤 CT 扫描的组合训练，我们将进一步研究胰腺肿瘤的每体素分割性能。最后，我们表明，在处理来自不同医院的 CT 扫描时，合成肿瘤提高了人工智能在肿瘤检测和定位方面的通用性。总的来说，我们提出的肿瘤合成方法在改善胰腺癌的早期检测方面具有巨大的潜力，从而带来更好的患者预后。

AI大模型技术社区

分享最新、最前沿的AI大模型技术，吸纳国内前几批AI大模型开发者

更多推荐

AICon 全球人工智能与机器学习技术大会参会有感

AI大模型技术社区

LLM大模型部署实战指南：Ollama简化流程，OpenLLM灵活部署，LocalAI本地优化，Dify赋能应用开发

LLM大模型部署实战指南：Ollama简化流程，OpenLLM灵活部署，LocalAI本地优化，Dify赋能应用开发 1. Ollama 部署的本地模型() Ollama 是一个开源框架，专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计。，这是 Ollama 的官网地址：https://ollama.com/ 以下是其主要特点和功能概述：简化部署：Ollama 目标在于简化在 Doc

AI大模型技术社区

无缝融入，即刻智能[一]：Dify-LLM大模型平台，零编码集成嵌入第三方系统，42K+星标见证专属智能方案[含ollama部署]

无缝融入，即刻智能[一]：Dify-LLM大模型平台，零编码集成嵌入第三方系统，42K+星标见证专属智能方案 1.Dify 简介 1.1 功能情况 Dify，一款引领未来的开源大语言模型（LLM）应用开发平台，革新性地融合了后端即服务(Backend as a Service,BaaS）与LLMOps的精髓，为开发者铺设了一条从创意原型到高效生产的快车道。其设计旨在打破技术壁垒，让非技术背景的用户