
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文提出CCCaption框架,通过双重奖励强化学习优化图像描述的两个核心指标:完整性和正确性。在完整性方面,利用多模态大模型生成多样化视觉查询构建CCaption-44k数据集,通过动态采样策略筛选高价值问题,确保描述覆盖显著视觉事实;在正确性方面,通过分解描述为子查询验证图像匹配度,有效抑制幻觉内容。实验表明,该方法在保持奖励增长的同时能显著提升描述的事实准确性,解决了传统方法在完整性和正确性

本文研究了视觉语言模型(VLM)在图像字幕生成中的表现与评估方法。通过构建CapArena平台(含6000+人工标注)评估14种VLM在精确性、信息性和抗幻觉方面的表现,发现现有模型与人类水平仍有差距。同时系统分析了传统与新型评估指标与人类偏好的相关性,并提出自动化基准CapArena-Auto(600样本),采用成对对战评估范式以提高可靠性。研究为提升VLM生成详细字幕能力提供了新的评估框架和基

本文提出了一种目标感知的提示策略(OPCap)来有效缓解对象幻觉现象。具体方法是使用预训练的对象检测器来识别图像中的关键对象标签及其空间信息。然后根据这些空间信息提取相应的图像区域,并将它们输入到属性预测器中以获取对象的属性。这些对象标签和属性与由图像编码器提取的特征结合后传递给解码器,增强了模型对图像上下文的理解。该方法主要包括四个步骤:图像编码、对象检测、属性预测和解码。通过将检测到的对象及其

在多代理系统中,反思可能涉及不同的角色,例如一个代理生成输出,而另一个对其进行批判,促进协作改进。采用分类器(较小的语言模型)评估查询复杂性,并确定最合适的方法,范围从单步检索到多步推理检索,对于直接查询完全绕过检索。在引入基于智能体的自主性的同时,利用了检索和生成过程的模块化。利用这些模式,代理能够处理迭代式的、上下文感知的任务,这些任务显著超出了传统RAG系统的能力。针对复杂查询,系统可自动发

《PixCLIP:通过任意粒度像素-文本对齐学习实现细粒度视觉语言理解》提出了一种提升CLIP模型细粒度对齐能力的新方法。研究团队构建了LongGRIT数据集(含150万样本),通过三阶段流程生成像素级文本描述:物体级属性描述、上下文位置关系描述,最终合成细粒度表达。模型采用三分支架构,结合掩码patch嵌入层和LLM文本编码器,通过全局图像-文本对齐、局部掩码-文本对齐和多尺度特征增强三种策略,

本文提出MERCap方法,一种零样本图像字幕生成模型,通过多类型实体检索提升生成质量。该方法创新性地采用文本CLIP表示加高斯噪声模拟图像表示,训练GPT-2模型结合实体提示和CLIP软提示重构文本。核心贡献包括:1)构建特定领域实体集并采用对比学习优化表示向量;2)双阶段训练机制(纯文本预训练+零样本推理);3)引入域内外实体检索策略。实验表明,该方法通过增强实体表示与图像的对齐,显著提高了生成

本文提出MERGE框架,首个针对新闻图片标题的多模态实体感知检索增强生成方法。该框架包含三个创新组件:1)构建实体中心的多模态知识库(EMKB),整合文本、视觉和结构化知识;2)采用假设性字幕引导的三阶段思维链机制实现细粒度跨模态对齐;3)通过检索驱动的多模态知识整合实现精确视觉-实体匹配。实验表明,MERGE能有效补充缺失细节,提升标题生成质量。该方法通过动态构建知识图谱和分阶段对齐策略,显著改

本文提出EXPERT,一种基于视觉语言模型的无参考图像字幕评估指标。通过构建包含42,000+结构化解释的数据集(Polaris-exp和Nebula-exp),从流畅性、相关性和描述性三个维度规范解释生成。设计两阶段评估模板:先评分后解释,并采用LLaVA-1.5模型进行监督训练。方法解决了现有指标解释不一致和质量未验证的问题,通过人工评估验证了解释质量,最终实现兼具数字评分和结构化文本解释的可

组合图像检索(CIR)旨在检索与参考图像密切相似的目标图像,同时整合用户指定的文本修改,从而更准确地捕捉用户意图。本文提出了一种新颖的无训练的单阶段方法,用于零样本组合图像检索(ZS-CIR)的单阶段反思思维链推理(OSrCIR),该方法采用多模态大型语言模型来保留必要的视觉信息在单阶段推理过程中进行改进,消除了两阶段方法中的信息丢失。我们的反思思维链框架通过将操纵意图与参考图像的上下文线索对齐来

本文提出ViLU框架,用于视觉语言模型(VLMs)的不确定性量化(UQ)与故障检测。针对传统最大概念匹配(MCM)方法在模糊概念下易产生高置信度错误的问题,ViLU通过分析视觉嵌入、文本嵌入及跨模态交互,构建全局不确定性表征。该框架采用事后处理方法,不修改模型内部结构,将故障预测建模为二元分类任务,使用加权交叉熵损失区分正确/错误预测。ViLU同时支持图像-标签和图像-字幕两类任务,适用于标准分类








