
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
视频异常检测在智能监控系统中发挥着重要作用。为了提高模型的异常识别能力,以往的研究通常涉及RGB、光流和文本特征。最近,动态视觉传感器(DVS)作为一项有前景的技术崭露头角,它将视觉信息捕捉为离散事件,具有极高的动态范围和时间分辨率。与传统相机相比,它减少了数据冗余,增强了对移动物体的捕捉能力。为了将这种丰富的动态信息引入监控领域,我们创建了首个DVS视频异常检测基准数据集,即UCF-Crime-

利用VLMs同时检测异常,并为决策提供易于理解的解释。这一领域的现有研究通常认为,VAD所需的复杂推理超出了预训练VLMs的能力范围。因此,这些方法要么在推理过程中引入专门的推理模块,要么通过额外训练依赖指令调整数据集,以使VLMs适用于VAD。然而,这些策略往往会带来高昂的计算成本或数据标注负担。为应对可解释VAD中的这些挑战,我们引入了一种名为VERA的语言化学习框架该框架能让VLMs在不修改

由于模型仅基于正常时空特征训练,预期正常事件在 \(M_s\) 第一行和 \(M_t\) 最后一行的数值会高于异常事件。因此,
弱监督视频异常检测(Weakly-Supervised Video Anomaly Detection, WS-VAD)旨在从稀疏的视频级标签中识别细粒度的异常事件。近年来,由于其在灾害预警、公共安全等领域的广泛应用,该任务受到越来越多的关注。现有研究通常将WS-VAD建模为多实例学习(Multi-Instance Learning, MIL)问题。然而,这些方法忽视了实例构建过程,仅采用统一时间
弱监督视频异常检测(WSVAD)已经取得了显著进展,但现有模型仍然容易受到对抗攻击的影响,限制了其可靠性。由于弱监督的固有限制——尽管需要帧级预测,但只提供视频级标签——传统的对抗防御机制,如对抗训练,效果不佳,因为视频级对抗扰动通常较弱且不足。为了解决这一限制,直接从模型生成的伪标签可以实现帧级对抗训练;然而,这些伪标签本质上是嘈杂的,显著降低了性能。因此,我们引入了一种新颖的伪异常生成方法,称

近年来,弱监督视频异常检测(WS-VAD)已成为一个新兴的研究方向,其仅利用视频级标签来识别视频中诸如暴力和裸露等异常事件。然而,这项任务面临着诸多挑战,包括处理不平衡的模态信息以及持续区分正常特征与异常特征。在本文中,我们针对这些挑战,提出了一种多模态弱监督视频异常检测框架,以精准检测暴力、裸露等异常事件。在该框架中,我们引入了一种名为跨模态融合适配器(CFA)的新型融合机制,它能动态选择并增强

弱监督视频异常检测(WS-VAD)旨在仅凭借视频级别的二元标签,识别长未修剪视频中涉及异常事件的片段。现有WS-VAD方法中的一种典型范式是采用多种模态作为输入,例如RGB、光流和音频,因为它们可以提供足够的判别线索,能够适应多样、复杂的现实场景。然而,这种流程高度依赖多种模态的可用性,并且在处理长序列时计算成本高昂且存储需求大,这限制了其在某些应用中的使用。

近期的视觉-语言预训练模型ImageBind在广泛的视觉任务中取得了显著成功,在视觉或文本表示中,展示了其在不同模态间联合嵌入空间的卓越能力。如何利用这样一个强大的模型进行弱监督视频异常检测(WSVAD)是一个值得研究的问题。以往的大多数工作仅使用单一的视觉模态,并将异常检测定义为简单的视频分类任务。然而,这类解决方案忽略了数据集中的文本信息以及异常事件的定位问题。为解决这些问题,本文提出了视觉-

视频异常检测(VAD)旨在识别训练中未见过的新动作或事件。现有的主流VAD技术通常关注包含冗余细节的全局模式,难以泛化到未见过的样本。在本文中,我们提出了一个框架,该框架能够识别可泛化到新样本的局部模式,并对局部模式的动态进行建模。提取空间局部模式的能力通过包含图像-文本对齐和跨模态注意力的两阶段过程实现。我们通过聚焦语义相关的组件来构建可泛化的表示,这些组件可以重新组合以捕捉新异常的本质,减少不

随着视频异常检测在智能监控领域的广泛应用,传统的仅基于视觉的检测方法在复杂环境中常面临信息不足和误报率高的问题。为解决这些限制,我们提出了一种新颖的弱监督框架,利用音视频协作实现鲁棒的视频异常检测。利用对比语言-图像预训练(CLIP)在视觉、音频和文本领域卓越的跨模态表示学习能力,我们的框架引入了两个主要创新:一种高效的音视频融合,通过轻量级参数自适应实现跨模态整合,同时保持CLIP主干网络冻结;








