2023

Segment Everything Everywhere All at Once

code: https://github.com/ux-decoder/segment-everything-everywhere-all-at-once
摘要:尽管对交互式人工智能系统的需求不断增长,但关于在视觉理解方面的人类-人工智能交互的全面研究却很少,如分割。受基于提示的llm通用接口开发的启发,本文提出了SEEM,一个快速的、交互式的模型,用于在图像中一次性分割一切。SEEM有四个需求: i)通过引入不同类型提示的通用提示引擎,包括点、框、涂鸦、掩码、文本和另一幅图像的参考区域;ii)通过学习联合视觉-语义空间进行视觉和文本提示,动态查询进行推理,如图1所示;iii)通过结合可学习的记忆提示,通过掩膜引导的交叉注意保留对话历史信息;iv)使用文本编码器编码文本查询和掩码标签,用于开放词汇分割。通过全面的实证研究,验证了SEEM在各种分割任务上的有效性。当SEEM学会了在一个统一的表示空间中编写不同类型的提示时,它显示出了概括到看不见的用户意图的强大能力。此外,SEEM可以有效地处理与轻量级提示解码器的多轮交互。
在这里插入图片描述

Scaling-up Remote Sensing Segmentation Dataset with Segment Anything Model

code: https://paperswithcode.com/paper/scaling-up-remote-sensing-segmentation

摘要: 分段任意事物模型(SAM)的成功证明了以数据为中心的机器学习的重要性。然而,由于标注遥感(RS)图像的困难和高成本,大量有价值的RS数据仍未被标记,特别是在像素级。在本研究中,我们利用SAM和现有的RS目标检测数据集,开发了一个有效的管道来生成一个大规模的RS分割数据集,称为SAMRS。SAMRS在大小上比现有的高分辨率RS分割数据集多出几个数量级,并提供了对象类别、位置和实例信息,可以用于语义分割、实例分割和对象检测,可以单独或组合。我们还从各个方面对SAMRS进行了全面的分析。我们希望它能促进RS分割的研究,特别是在大型模型的预训练中。

Personalize Segment Anything Model with One Shot

code: https://paperswithcode.com/paper/personalize-segment-anything-model-with-one

摘要: 在大数据预训练的驱动下,分段任何模型(SAM)已经被证明是一个强大和可提示的框架,彻底改变了分割模型。尽管具有普遍性,但在没有人工提示的情况下为特定的视觉概念定制SAM还没有被探索过,例如,自动将你的宠物狗分割成不同的图像。在本文中,我们提出了一种无训练的SAM个性化方法,称为PerSAM。只给定一个带有参考掩模的图像,PerSAM首先通过位置先验定位目标概念,并通过三种技术将其分割到其他图像或视频中:目标引导注意、目标语义提示和级联后细化。通过这种方式,我们有效地使SAM适应私人使用。为了进一步缓解掩模的模糊性,我们提出了一种有效的一次性微调变体,PerSAM-F。为了冻结整个SAM,我们为多尺度掩模引入了两个可学习的权值,在10秒内只训练2个参数以提高性能。为了证明我们的有效性,我们构建了一个新的分割数据集,PerSeg,用于个性化评估,并测试了我们的方法在视频对象分割具有竞争力的性能。此外,我们的方法还可以增强梦亭,以个性化稳定扩散的文本到图像生成,从而消除背景干扰,更好地进行目标外观学习。

在这里插入图片描述

Segment Anything in Medical Images

code: https://github.com/bowang-lab/MedSAM

摘要:分割一切模型(SAM)已经彻底改变了自然图像分割,但其在医学图像上的性能是有限的。这项工作提出了MedSAM,这是第一次尝试将SAM的成功扩展到医学图像,其目标是创建一个通用的工具,用于分割各种医疗目标。具体来说,我们首先策划了一个大规模的医学图像数据集,包括跨越11种不同模式的超过20万掩膜。然后,我们开发了一种简单的微调方法,使SAM适应于一般的医学图像分割。对21个3D分割任务和9个2D分割任务的综合实验表明,MedSAM在3D和2D分割任务上的平均骰子相似系数(DSC)分别为22.5%和17.6%。

在这里插入图片描述

Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching

code: https://github.com/aim-uofa/Matcher

摘要:在大规模的预训练支持下,视觉基础模型在开放世界图像理解方面显示出巨大的潜力。尽管单个模型的能力有限,但正确地结合多个这样的模型可以产生积极的协同效应,并发挥其全部潜力。在这项工作中,我们提出了匹配器,它通过集成一个通用的特征提取模型和一个类不可知的分割模型来分割任何东西。天真地连接模型会导致不令人满意的性能,例如,模型倾向于产生匹配的异常值和假阳性的掩模片段。为了解决这些问题,我们设计了一种双向匹配策略,用于精确的交叉图像语义密集匹配,以及一个鲁棒的提示采样器,用于掩模建议的生成。此外,我们提出了一种新的实例级匹配策略。所提出的匹配器方法在各种分割任务中提供了令人印象深刻的泛化性能,所有这些都没有经过训练。例如,它在COCO-20i的一次性语义分割上实现了52.7%的mIoU,超过了目前最先进的专家模型1.6%。此外,我们的可视化结果显示了开放世界的通用性和灵活性。

在这里插入图片描述

Customized Segment Anything Model for Medical Image Segmentation

code: https://github.com/hitachinsk/SAMed
摘要:我们提出了一种医学图像分割的通用解决方案SAMed。与以往的方法不同,SAMed建立在大规模图像分割模型,分段任意模型(SAM)的基础上,探索定制大规模医学图像分割模型的新研究范式。SAMed将基于低秩(LoRA)的微调策略应用于SAM图像编码器,并将其与提示编码器和掩码解码器一起对已标记的医学图像分割数据集进行细化。我们还观察到预热微调策略和AdamW优化器导致SAMed成功收敛和降低损失。与SAM不同,SAMed可以对医学图像进行语义分割。我们训练的SAMed模型在突触多器官分割数据集上达到了81.88 DSC和20.64 HD,这与最先进的方法相当。我们进行了大量的实验来验证我们的设计的有效性。由于SAMed只更新了SAM参数的一小部分,因此它的部署成本和存储成本在实际使用中相当边际。

在这里插入图片描述

CAN SAM COUNT ANYTHING? AN EMPIRICAL STUDY ON SAM COUNTING

code: https://github.com/vision-intelligence-and-robots-group/count-anything

摘要:Meta AI最近发布了“分段任何东西模型”(SAM),该模型因其在类不可知分割方面令人印象深刻的表现而获得了关注。在本研究中,我们探讨了使用SAM进行具有挑战性的少镜头对象计数任务,即通过提供几个边界框来计数一个看不见类别的对象。我们将SAM的性能与其他少量的镜头计数方法进行了比较,发现目前没有进一步的微调,它并不令人满意,特别是对于小的和拥挤的对象。
在这里插入图片描述

SAD: Segment Any RGBD

code: https://github.com/jun-cen/segmentanyrgbd
摘要: 分段任意模型(SAM)已经证明了它在分割2D RGB图像的任何部分方面的有效性。然而,在分割RGB图像时,SAM更重视纹理信息,而对几何信息的重视较少。为了解决这一限制,我们提出了分段Any RGBD(SAD)模型,它是专门设计用于直接从图像中提取几何信息的。受到人类通过深度地图的可视化来识别物体的自然能力的启发,SAD利用SAM对渲染的深度地图进行分割,从而提供了增强的几何信息的线索,并减轻了过度分割的问题。我们在我们的框架中进一步包含了开放词汇表的语义分割,从而实现了三维的全视分割。

在这里插入图片描述
在这里插入图片描述

Segment Anything in High Quality

code: https://github.com/syscv/sam-hq
摘要:最近的片段任何东西模型(SAM)代表了在扩大分割模型方面的一个巨大飞跃,允许强大的零射击能力和灵活的提示。尽管接受了11亿个口罩的训练,但SAM的口罩预测质量在很多情况下都很差,特别是在处理具有复杂结构的物体时。我们提出了HQ-SAM,为SAM配备精确分割任何物体的能力,同时保持SAM原始的快速设计、效率和零射击的通用性。我们仔细的设计重复并保留了SAM的预训练模型权值,同时只引入最小的附加参数和计算。我们设计了一个可学习的高质量输出令牌,它被注入到SAM的掩模解码器中,并负责预测高质量的掩模。我们不是只将其应用于掩码-解码器特征上,而是首先将它们与早期和最终的ViT特征相融合,以改进掩码细节。为了训练我们引入的可学习参数,我们组成了一个来自多个来源的44K细粒度掩模的数据集。HQ-SAM只在引入的44k掩模的分离集上进行训练,而在8个gpu上只需要4个小时。我们将HQ-SAM在9个不同的下游任务中展示了它的有效性,其中7个在zero-shot传输协议中进行了评估。
在这里插入图片描述
在这里插入图片描述

Medical SAM Adapter: Adapting Segment Anything Model for Medical Image Segmentation

code: https://paperswithcode.com/paper/medical-sam-adapter-adapting-segment-anything

SAM近年来在图像分割领域得到了广泛的应用。由于其在全面分割任务中令人印象深刻的能力和基于提示的界面,SAM在社区中引发了密集的讨论。许多著名的专家甚至说,图像分割任务已经被SAM“完成”了。然而,医学图像分割虽然是图像分割家族的一个重要分支,但似乎不包括在“任何东西”分割的范围内。许多个体实验和最近的研究表明,SAM在医学图像分割方面的效果不佳。一个自然的问题是,如何寻找缺失的拼图部分,将SAM的强大分割能力扩展到医学图像分割。在本文中,我们提出了Med SAM适配器,而不是微调MAM适配器,它通过一种简单而有效的自适应技术,将医学特定领域的知识集成到分割模型中。虽然这项工作仍然是少数将流行的NLP技术适配器转移到计算机视觉案例之一,但这个简单的实现在医学图像分割上显示出令人惊讶的良好性能。一种适应SAM的医学图像,我们称之为医学SAM适配器(MSA),在19种医学图像分割任务中表现出优越的性能,包括各种图像模式,包括CT、MRI、超声图像、眼底图像和皮肤镜图像。MSA优于广泛的先进(SOTA)医学图像分割方法,如nnUNet,TransUNet,UNetr,medegdiff,也优于完全精细的MedSAM有相当大的性能差距。
在这里插入图片描述

RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model

code: https://github.com/KyanChen/RSPrompter

摘要:AI研究公司提出的基础部分任何东西模型(SAM)显示出显著的泛化和零射击能力。尽管如此,作为一种与类别无关的实例分割方法,SAM在很大程度上依赖于涉及点、盒子和粗粒度掩码的先前的手动指导。此外,它在遥感图像分割任务上的性能还有待得到充分的探索和证明。本文设计了一种基于SAM基础模型的遥感图像自动实例分割方法。受提示学习的启发,我们提出了一种学习为SAM输入生成适当提示的方法。这使得SAM能够为遥感图像产生语义上可识别的分割结果,我们称之为RSPrompter。基于SAM社区的最新发展,我们还建议了一些正在进行的衍生细分任务,并将其性能与RSPrompter进行比较。在WHU构建、NWPU VHR-10和SSDD数据集上的广泛实验结果验证了我们所提出的方法的有效性。
在这里插入图片描述

SAM Fails to Segment Anything? – SAM-Adapter:Adapting SAM in Underperformed Scenes:Camouflage, Shadow, Medical Image Segmentation, and More

code: https://github.com/tianrun-chen/SAM-Adapter-PyTorch

摘要: 大型模型的出现,也被称为基础模型,给人工智能研究带来了重大进展。其中一个模型是分段任意事物(SAM),它是为图像分割任务而设计的。然而,与其他基础模型一样,我们的实验结果表明,SAM可能在某些分割任务中表现失败或表现较差,如阴影检测和隐藏目标检测(隐藏目标检测)。本研究首先为将大型的预训练图像分割模型SAM应用于这些下游任务铺平了道路,即使是在SAM表现较差的情况下。我们提出了SAM适配器,而不是微调SAM适配器,它通过使用简单而有效的适配器将特定领域的信息或视觉提示整合到分割网络中。通过将任务特定的知识与大型模型学习到的一般知识相结合,SAM-适配器可以显著提高SAM在具有挑战性的任务中的性能,如在广泛的实验中所示。我们甚至可以超越特定于任务的网络模型,并在我们测试的任务中达到最先进的性能:伪装对象检测、阴影检测。我们还测试了息肉分割(医学图像分割),并取得了更好的结果。我们相信,我们的工作为在下游任务中利用SAM提供了机会,在各个领域都有潜在的应用,包括医疗图像处理、农业、遥感等。
在这里插入图片描述

Logo

为武汉地区的开发者提供学习、交流和合作的平台。社区聚集了众多技术爱好者和专业人士,涵盖了多个领域,包括人工智能、大数据、云计算、区块链等。社区定期举办技术分享、培训和活动,为开发者提供更多的学习和交流机会。

更多推荐