277431 个人主页

@qq_64786610

277431

2025-10-09 01:28:55 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

论文阅读：Recover and Match

Recover and Match: Open-Vocabulary Multi-Label Recognition throughKnowledge-Constrained Optimal Transport（恢复与匹配：基于知识约束的最优传输的开放词汇多标签识别）此片论文主要做的是开放词汇多标签识别（测试时不只识别训练见过的标签，还要识别没见过的新标签，要求模型既要能看懂图，又要能通过文本标签

#论文阅读

论文阅读：SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Lan

SPARC：视觉语言模型中零频次多标签识别的分数提示与自适应融合，此论文先构造“复合 prompt”去额外探测类别之间的共现关系，再对模型分数做双重归一化，最后把单类 prompt 分数和复合 prompt 分数按排序统计量自适应融合，得到更稳的多标签预测分数。代码地址：https://github.com/kjmillerCURIS/SPARC。

#论文阅读

论文阅读：Retrieval-based objects and relations prompt for image captioning

Retrieval-based objects and relations prompt for image captioning（RORPCap/基于检索的对象和关系提示图片说明）相似图片的描述句子里隐含丰富语义，此论文先把这些语义检索出来，再抽取其中最关键的对象词和关系词，作为 prompt 去引导语言模型生成描述。

#论文阅读

AquaticCLIP: A Vision-Language Foundation Model and Dataset for Underwater Scene Analysis

AquaticCLIP：水下视觉语言基础模型创新研究摘要：本研究提出AquaticCLIP模型，通过三项关键创新改进水下场景分析：1) 将CLIP模型引入水下领域，采用"人工+机器+清洗"的混合策略构建高质量数据集；2) 设计双引导机制(PGVE+VGTE)，实现视觉与文本特征的深度交互；3) 引入双向对比损失优化跨模态匹配。模型架构包含图像编码、文本生成与清理、特征细化等模

#论文阅读

论文阅读：FSOD-VFM: FEW-SHOT OBJECT DETECTION WITH VISION FOUNDATION MODELS AND GRAPH DIFFUSION

图 1：FSOD-VFM 概述图。方法集成了 UPN、SAM2 和 DINOv2 来生成边界框提案并执行查询匹配，构建一个图并执行图扩散以减轻过度碎片，过度碎片化的盒子区域在图扩散后显得更加透明，表明它们的置信度已经下降。一个专门用来生成类别无关的候选框的模型，其核心目标是生成尽可能多的、覆盖各种可能物体的候选框，而不是精确地框出完整物体，因此会产生各种大小的候选框，也有可能大的覆盖掉小的，过度碎

#论文阅读 #目标检测 #人工智能

到底了