weixin_46687145 个人主页

@weixin_46687145

weixin_46687145

2023-07-28 15:49:54 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Emu3.5: Native Multimodal Models are World Learners

Emu3.5是一款原生多模态世界模型，通过端到端预训练和强化学习，实现视觉与语言交织序列的生成与推理。该模型基于10万亿token的数据集（主要来自互联网视频帧和文本），采用统一的下一个token预测目标，支持长时程多模态生成。创新提出的DiDA方法将单图像推理速度提升20倍，性能与Gemini 2.5 Flash Image相当且在文本渲染更优。Emu3.5具备X2I生成、开放世界编辑等能力，并

Federated Weakly Supervised Video Anomaly Detection with Multimodal Prompt

视频异常检测（Video Anomaly Detection, VAD）旨在定位视频中的异常事件。近年来，弱监督视频异常检测（Weakly Supervised VAD）取得了显著进展，其在训练时仅需视频级标签。在实际应用中，不同机构可能拥有不同类型的异常视频。然而，出于隐私保护的考虑，这些异常视频无法在互联网上流通。为了训练一个能够识别多种异常类型的更具泛化能力的异常检测器，将联邦学习引入 WS

#人工智能 #深度学习

Multilingual-prompt-guided Directional Feature Learning for Weakly Supervised Video Anomaly Detectio

弱监督视频异常检测因其有效的性能和低成本的标注方式而受到关注，该方法利用视频级标签来区分正常与异常模式。然而，由于异常事件的多样性与不完整性，使得特征学习面临复杂挑战。视觉-语言模型提供了有前景的方法，但设计精确的提示词依然困难。这是因为在真实世界场景下，需要涵盖多样的正常与异常情况，且工作量巨大。为解决这些问题，我们提出结合多语言与多提示词以提升特征学习。通过使用不同语言的提示词来定义“异常”和

#计算机视觉 #深度学习 #人工智能

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

Meta提出V-JEPA 2自监督视频模型，通过100万小时互联网视频预训练实现世界理解与预测。该模型在动作分类（Something-Something v2达77.3%准确率）和动作预测（Epic-Kitchens-100召回率@5达39.7%）任务中表现优异。结合语言模型后，在视频问答任务中达到SOTA（如PerceptionTest 84.0分）。更重要的是，仅用62小时机器人数据微调后，V

#深度学习

Distilling Vision-Language Pre-training to Collaborate with Weakly-Supervised Temporal Action Locali

弱监督时序动作定位（WTAL）旨在仅借助类别标签完成动作实例的检测与分类。现有绝大多数方法均广泛采用现成的基于分类的预训练（CBP）方式生成视频特征，以实现动作定位。然而，分类与定位任务的优化目标存在差异，这使得时序定位结果面临严重的不完整问题。为在不增加额外标注成本的前提下解决该问题，本文提出从视觉-语言预训练（VLP）中挖掘免费的动作知识——研究中我们意外发现，原始VLP的定位结果存在过完整问

#计算机视觉 #深度学习

CLIP-guided Prototype Modulating for Few-shot Action Recognition

从CLIP这样的大规模对比性语言图像预训练中学习，最近在广泛的下游任务中取得了显著的成功，但在具有挑战性的少样本动作识别（FSAR）任务中，它仍然有待探索。在这项工作中，我们的目标是将CLIP强大的多模态知识迁移，以缓解由于数据稀缺导致的不准确的原型估计问题，这是低样本量情况下的一个关键问题。为此，我们提出了一个名为CLIP-FSAR的CLIP引导原型调制框架，该框架由两个关键组件组成：一个视频文

#原型模式 #视觉检测 #人工智能 +2

Advancing Real-World Image Dehazing: Perspective, Modules, and Training

本文提出了一种结合多重退化模型、新型去雾网络和高斯感知对比损失的图像去雾新方法。针对真实场景中多因素干扰问题，首先构建了包含弱光、噪声等多种退化因素的雾天成像模型，缩小合成与真实数据的分布差异。创新设计了"定位-去除"流程的去雾网络，通过退化定位模块提取判别性特征，利用去除模块消除特征间虚假依赖关系。此外，提出高斯感知对比损失引导网络生成自然去雾效果。实验表明，该方法在多个真实

#深度学习 #计算机视觉

Harnessing Large Language Models for Training-free Video Anomaly Detection

视频异常检测（VAD）旨在定位视频中的异常事件。现有的研究大多依赖于训练深度模型，以学习正常性分布，使用视频级监督、单类监督或无监督设置。基于训练的方法容易受到领域特定的限制，因此在实际部署中成本较高，因为任何领域变化都需要重新收集数据并重新训练模型。本文与以往的工作大为不同，提出了基于语言的视频异常检测方法（LAVAD），这是一种在新颖的无训练范式下处理视频异常检测的方法，利用了预训练的大型语言

#语言模型 #人工智能 #自然语言处理

X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

创新点1：视频编码器包含两个transformer，第一个transformer是Cross-frame Communication Transformer（CCT），包含12个block，里面每个block有Cross-frame Fusion Attention（CFA）和 Intra-frame Diffusion Attention（IFA），CFA将各帧cls_token计算多头自注意力

#人工智能 #计算机视觉 #视觉检测

MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

摘要： MagicTailor提出了一种文本到图像扩散模型中的组件可控个性化新任务，支持用户对概念内的单个组件进行细粒度定制。针对语义污染（非期望元素干扰）和语义失衡（学习比例失调）两大挑战，该框架采用动态掩码退化（DM-Deg）自适应扰动无关语义，并通过双流平衡（DS-Bal）实现均衡学习。实验表明，MagicTailor能有效整合目标组件与概念，生成更具创造力的个性化图像。代码已开源，论文发表

#深度学习 #人工智能

共 32 条

请选择