logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

Meta提出V-JEPA 2自监督视频模型,通过100万小时互联网视频预训练实现世界理解与预测。该模型在动作分类(Something-Something v2达77.3%准确率)和动作预测(Epic-Kitchens-100召回率@5达39.7%)任务中表现优异。结合语言模型后,在视频问答任务中达到SOTA(如PerceptionTest 84.0分)。更重要的是,仅用62小时机器人数据微调后,V

文章图片
#深度学习
Distilling Vision-Language Pre-training to Collaborate with Weakly-Supervised Temporal Action Locali

弱监督时序动作定位(WTAL)旨在仅借助类别标签完成动作实例的检测与分类。现有绝大多数方法均广泛采用现成的基于分类的预训练(CBP)方式生成视频特征,以实现动作定位。然而,分类与定位任务的优化目标存在差异,这使得时序定位结果面临严重的不完整问题。为在不增加额外标注成本的前提下解决该问题,本文提出从视觉-语言预训练(VLP)中挖掘免费的动作知识——研究中我们意外发现,原始VLP的定位结果存在过完整问

文章图片
#计算机视觉#深度学习
CLIP-guided Prototype Modulating for Few-shot Action Recognition

从CLIP这样的大规模对比性语言图像预训练中学习,最近在广泛的下游任务中取得了显著的成功,但在具有挑战性的少样本动作识别(FSAR)任务中,它仍然有待探索。在这项工作中,我们的目标是将CLIP强大的多模态知识迁移,以缓解由于数据稀缺导致的不准确的原型估计问题,这是低样本量情况下的一个关键问题。为此,我们提出了一个名为CLIP-FSAR的CLIP引导原型调制框架,该框架由两个关键组件组成:一个视频文

文章图片
#原型模式#视觉检测#人工智能 +2
Advancing Real-World Image Dehazing: Perspective, Modules, and Training

本文提出了一种结合多重退化模型、新型去雾网络和高斯感知对比损失的图像去雾新方法。针对真实场景中多因素干扰问题,首先构建了包含弱光、噪声等多种退化因素的雾天成像模型,缩小合成与真实数据的分布差异。创新设计了"定位-去除"流程的去雾网络,通过退化定位模块提取判别性特征,利用去除模块消除特征间虚假依赖关系。此外,提出高斯感知对比损失引导网络生成自然去雾效果。实验表明,该方法在多个真实

文章图片
#深度学习#计算机视觉
Harnessing Large Language Models for Training-free Video Anomaly Detection

视频异常检测(VAD)旨在定位视频中的异常事件。现有的研究大多依赖于训练深度模型,以学习正常性分布,使用视频级监督、单类监督或无监督设置。基于训练的方法容易受到领域特定的限制,因此在实际部署中成本较高,因为任何领域变化都需要重新收集数据并重新训练模型。本文与以往的工作大为不同,提出了基于语言的视频异常检测方法(LAVAD),这是一种在新颖的无训练范式下处理视频异常检测的方法,利用了预训练的大型语言

文章图片
#语言模型#人工智能#自然语言处理
X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

创新点1:视频编码器包含两个transformer,第一个transformer是Cross-frame Communication Transformer(CCT),包含12个block,里面每个block有Cross-frame Fusion Attention(CFA)和 Intra-frame Diffusion Attention(IFA),CFA将各帧cls_token计算多头自注意力

文章图片
#人工智能#计算机视觉#视觉检测
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

摘要: MagicTailor提出了一种文本到图像扩散模型中的组件可控个性化新任务,支持用户对概念内的单个组件进行细粒度定制。针对语义污染(非期望元素干扰)和语义失衡(学习比例失调)两大挑战,该框架采用动态掩码退化(DM-Deg)自适应扰动无关语义,并通过双流平衡(DS-Bal)实现均衡学习。实验表明,MagicTailor能有效整合目标组件与概念,生成更具创造力的个性化图像。代码已开源,论文发表

文章图片
#深度学习#人工智能
VarCMP: Adapting Cross-Modal Pre-Training Models for Video Anomaly Retrieval

视频异常检索(VAR)旨在通过文本描述、同步音频等跨模态查询,从长未修剪视频集合中检索相关的异常或正常视频。跨模态预训练(CMP)模型通过对大规模图像 - 文本等跨模态对进行预训练,能够学习不同模态间的丰富关联,这种跨模态关联能力使其在传统检索任务中具有优势。受此启发,如何利用CMP模型强大的跨模态关联能力,从长未修剪视频中搜索关键视觉组件成为重要研究问题。为此,本文提出一种基于CMP模型的VAR

文章图片
#深度学习
Weakly-Supervised Audio-Visual Video Parsing with Prototype-based Pseudo-Labeling

本文提出了一种基于原型的伪标签方法,用于解决弱监督音视频视频解析(AVVP)问题。该问题旨在通过视频级别的事件标签,在视频中定位和分类可听、可见或两者兼具的事件。现有方法通常采用多实例学习(MIL)技术,但容易误分类。本文方法首先通过聚类训练数据中的关键片段,构建多个“原型”特征,然后基于这些原型与训练片段的特征相似性,为所有训练片段分配伪标签,并在弱监督和强监督下重新训练模型。通过使用伪标签进行

文章图片
#原型模式#深度学习#人工智能
Joint Multimodal Transformer for Emotion Recognition in the Wild

多模态情感识别(MMER)系统通常通过利用诸如视觉、文本、生理和听觉模态之间的跨模态和内模态关系,从而超越单模态系统的表现。本文提出了一种基于联合多模态变换器(Joint Multimodal Transformer,简称JMT)的MMER方法,该方法采用基于键的交叉注意力进行融合。此框架能够利用不同模态的互补特性,以提高预测准确性。独立的后端网络在视频序列中捕获每个模态内的时空依赖关系。随后,我

文章图片
#transformer#深度学习#人工智能
    共 29 条
  • 1
  • 2
  • 3
  • 请选择