logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AKS:长视频理解的自适应关键帧采样

多模态大型语言模型(MLLMs)通过将视觉输入作为额外标记注入大型语言模型(LLMs)的上下文,实现了开放世界的视觉理解。然而,当视觉输入从单张图像变为长视频时,上述模式会遇到困难,因为大量的视频标记已显著超出了多模态大型语言模型的最大容量。因此,现有的基于视频的多模态大型语言模型大多是通过从输入数据中采样一小部分标记来构建的,这可能导致关键信息丢失,从而产生错误的答案。本文提出了一种简单而有效的

#音视频
Stable Mean Teacher for Semi-supervised Video Action Detection:用于半监督视频动作检测的稳定均值教师模型

我们提出了Stable Mean Teacher,这是一种用于半监督动作检测的新型师生方法。Stable Mean Teacher依赖于一种新颖的错误恢复模块,该模块从学生的错误中学习,并将这些知识传递给教师,以便为学生生成更好的伪标签。它还受益于像素差异,这是一种简单的约束,可在时空预测中增强时间连贯性。我们通过大量实验在三个动作检测数据集上证明了Stable Mean Teacher的有效性。

#音视频#均值算法#算法
2025CVPR Keyframe Sampling解读:长视频理解的自适应关键帧采样

多模态大型语言模型(MLLMs)通过将视觉输入作为额外标记注入大型语言模型(LLMs)的上下文,实现了开放世界的视觉理解。然而,当视觉输入从单张图像变为长视频时,上述模式会遇到困难,因为大量的视频标记已显著超出了多模态大型语言模型的最大容量。因此,现有的基于视频的多模态大型语言模型大多是通过从输入数据中采样一小部分标记来构建的,这可能导致关键信息丢失,从而产生错误的答案。本文提出了一种简单而有效的

#目标检测#机器学习#计算机视觉 +2
AAAI2025:用于弱监督时间动作定位的相似模态增强与动作

pc loss (Process Consistency loss):过程一致性损失,对应右侧Process Consistency模块,保证候选框覆盖完整动作时序,惩罚不完整的候选框。个视频的时序片段特征,沿时间维度做全局池化,得到视频级的 RGB / 光流特征,再进行余弦相似度计算,归一化到[0,1]区间内,得到最终相似度向量分数。作用:通过pc loss 约束,让模型输出覆盖完整动作时序的候

#目标检测#图像处理#机器学习 +2
深度学习基础知识

通俗来说,梯度设定会影响参数的变化,进而影响误差变化的速率 ,梯度是模型修改参数的唯一依据,告诉整个网络权重怎么调整可以让误差达到最小。利用匈牙利算法求解代价矩阵,得到唯一、最小总代价的一对一匹配关系,保证每个真实框仅匹配一个预测框,每个预测框仅匹配一个真实框。的预测-真实对计算损失,未匹配的预测框判定为背景,无监督损失。核心意义:衡量模型「不瞎检」的能力,值越高,误检越少。核心意义:衡量模型「不

#深度学习#人工智能#机器学习 +3
CVPR 2024论文Koala介绍

这是 Koala 在 EgoSchema 长视频问答任务上的时序上下文聚合方式对比表,核心验证:在输入 LLM 之前先聚合视频令牌(pre-LLM 聚合),比直接把所有片段令牌丢给 LLM 让它自己处理(post-LLM 聚合)效果更好。这是 EgoSchema 长视频问答任务的纯语言先验(Language prior)基线表,用于展示:在不输入任何视频信息的情况下,仅靠大语言模型(LLM)凭常识

#目标检测#计算机视觉#图像处理 +2
CVPR 2023解读 | Semi-DETR:基于检测Transformer的半监督目标检测新范式

Semi-DETR设计了端到端的半监督训练框架,通过上文所提到的三大创新点,有效解决了传统SSOD方法在DETR上的适配问题,为半监督目标检测提供了新的研究思路。此论文的落地场景非常明确;工业质检、安防监控、小众物体检测、医疗影像等领域。

#目标检测#计算机视觉#图像处理
到底了