
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Recover and Match: Open-Vocabulary Multi-Label Recognition throughKnowledge-Constrained Optimal Transport(恢复与匹配:基于知识约束的最优传输的开放词汇多标签识别)此片论文主要做的是开放词汇多标签识别(测试时不只识别训练见过的标签,还要识别没见过的新标签,要求模型既要能看懂图,又要能通过文本标签
SPARC:视觉语言模型中零频次多标签识别的分数提示与自适应融合,此论文先构造“复合 prompt”去额外探测类别之间的共现关系,再对模型分数做双重归一化,最后把单类 prompt 分数和复合 prompt 分数按排序统计量自适应融合,得到更稳的多标签预测分数。代码地址:https://github.com/kjmillerCURIS/SPARC。
Retrieval-based objects and relations prompt for image captioning(RORPCap/基于检索的对象和关系提示图片说明)相似图片的描述句子里隐含丰富语义,此论文先把这些语义检索出来,再抽取其中最关键的对象词和关系词,作为 prompt 去引导语言模型生成描述。
AquaticCLIP:水下视觉语言基础模型创新研究 摘要:本研究提出AquaticCLIP模型,通过三项关键创新改进水下场景分析:1) 将CLIP模型引入水下领域,采用"人工+机器+清洗"的混合策略构建高质量数据集;2) 设计双引导机制(PGVE+VGTE),实现视觉与文本特征的深度交互;3) 引入双向对比损失优化跨模态匹配。模型架构包含图像编码、文本生成与清理、特征细化等模
图 1:FSOD-VFM 概述图。方法集成了 UPN、SAM2 和 DINOv2 来生成边界框提案并执行查询匹配,构建一个图并执行图扩散以减轻过度碎片,过度碎片化的盒子区域在图扩散后显得更加透明,表明它们的置信度已经下降。一个专门用来生成类别无关的候选框的模型,其核心目标是生成尽可能多的、覆盖各种可能物体的候选框,而不是精确地框出完整物体,因此会产生各种大小的候选框,也有可能大的覆盖掉小的,过度碎







