logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

《Video Mamba Suite》论文笔记(3)Mamba作为时序适配器的作用

这确保了新模型的输出与原始模型的输出相匹配。值得注意的是,标准的ViM块比自我注意力模块(4C^2)具有更多的参数(略多于6.25C^2),其中C指的是特征维度。值得注意的是,与时间自注意力块相比,我们使用的 VIM 时间块的参数更少,突出了 Mamba 选择性扫描 [30] 的特殊参数利用率和信息提取能力。令人惊讶的是,我们观察到时空 ViM 块虽然在时空级别引入了全局建模,但实际上会导致性能下

文章图片
#论文阅读
《VideoMamba》论文笔记

基于注意力的模型[2,4,59,63,89]的引入,如TimeSformer[4]和ViViT[2],通过有效地捕获视频序列中的远程依赖关系,增强了时间关系的理解,取得了显著的进展。结果如图6a所示,表明该策略可以获得预期的更好的收敛性。(1)视觉域中的可扩展性:我们检查 VideoMamba 的可扩展性并发现,虽然纯 Mamba 模型随着规模的增加而趋于过拟合,但我们引入了一种简单而有效的自蒸馏

文章图片
#论文阅读
《Vision mamba》论文笔记

最近,具有高效硬件感知设计的状态空间模型 (SSM),即 Mamba 深度学习模型,在长序列建模方面显示出巨大潜力。同时,纯粹基于SSM构建高效通用的视觉骨干是一个吸引人的方向。然而,由于视觉数据的位置敏感性和全局上下文对视觉理解的要求,表示视觉数据对SSMs具有挑战性。在本文中,我们表明,不需要依赖自注意力进行视觉表示学习并提出了一种新的具有双向 Mamba 块 (Vim) 的通用视觉主干,它使

文章图片
#论文阅读
到底了