logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文笔记】【视频异常检测】【CVPR2025】Anomize: Better Open Vocabulary Video Anomaly Detection

这篇论文是第二篇开放词汇视频异常检测(OVVAD)的论文。其实第一篇OVVAD的论文做的方法很简单,但是之所以能投CVPR,是因为提出了OVVAD这个任务。这篇论文没有“第一个提出”这块招牌,也就是说它得在方法上下功夫,才能中CVPR。(就是说检测不到新类)和(就是说无法把新类异常归类),这两个挑战其实也就是OVVAD的两个核心挑战。而论文的创新是引入了“文本增强的双流机制”,我会在后面解释这个机

文章图片
#论文阅读
【论文笔记】【强化微调】综述 - Think With Image

一篇将视觉强化微调的各种方法总结起来的综述被提出来了,这篇综述将对图像的思考分成了两种:Think About Image 和 Think With Image。前者仅仅是把图像静态输入给大模型,作为一次上下文;后者是动态输入图片,类似看 - 想 - 看的迭代式思考。近两年来,强化微调已经火得不像话了,相关论文每个月就有好几篇挂在 Arxiv 上,看都看不过来。

文章图片
#论文阅读
【论文笔记】【视频异常检测】Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection

假设你有两个高斯分布,这两个分布观测同一个量。举个例子,你是一个数学家,你家里有两个温度计用来测室温。你知道这两只温度计都不太准,但都服从高斯分布。他们测出来的值分别是,方差分别是。所以你每次计算真正室温时,是通过某种方式,将这两个测量值结合起来看的。那么怎么结合呢?

文章图片
#论文阅读
到底了