
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文提出全景字幕新任务,旨在生成图像的全面文本描述。针对现有MLLM的局限性,研究设计了PancapEngine数据引擎(通过多检测器识别实体并生成高质量数据)和PancapChain方法(分四阶段生成字幕:实体定位、标签分配、补充发现、最终生成)。同时提出PancapScore评估指标(涵盖五个语义维度)和SA-Pancap基准测试(含人工标注测试集)。实验采用LLaVA架构,结果显示该方法能有

本文提出MERCap方法,一种零样本图像字幕生成模型,通过多类型实体检索提升生成质量。该方法创新性地采用文本CLIP表示加高斯噪声模拟图像表示,训练GPT-2模型结合实体提示和CLIP软提示重构文本。核心贡献包括:1)构建特定领域实体集并采用对比学习优化表示向量;2)双阶段训练机制(纯文本预训练+零样本推理);3)引入域内外实体检索策略。实验表明,该方法通过增强实体表示与图像的对齐,显著提高了生成

本文提出MERGE框架,首个针对新闻图片标题的多模态实体感知检索增强生成方法。该框架包含三个创新组件:1)构建实体中心的多模态知识库(EMKB),整合文本、视觉和结构化知识;2)采用假设性字幕引导的三阶段思维链机制实现细粒度跨模态对齐;3)通过检索驱动的多模态知识整合实现精确视觉-实体匹配。实验表明,MERGE能有效补充缺失细节,提升标题生成质量。该方法通过动态构建知识图谱和分阶段对齐策略,显著改

本文提出EXPERT,一种基于视觉语言模型的无参考图像字幕评估指标。通过构建包含42,000+结构化解释的数据集(Polaris-exp和Nebula-exp),从流畅性、相关性和描述性三个维度规范解释生成。设计两阶段评估模板:先评分后解释,并采用LLaVA-1.5模型进行监督训练。方法解决了现有指标解释不一致和质量未验证的问题,通过人工评估验证了解释质量,最终实现兼具数字评分和结构化文本解释的可

组合图像检索(CIR)旨在检索与参考图像密切相似的目标图像,同时整合用户指定的文本修改,从而更准确地捕捉用户意图。本文提出了一种新颖的无训练的单阶段方法,用于零样本组合图像检索(ZS-CIR)的单阶段反思思维链推理(OSrCIR),该方法采用多模态大型语言模型来保留必要的视觉信息在单阶段推理过程中进行改进,消除了两阶段方法中的信息丢失。我们的反思思维链框架通过将操纵意图与参考图像的上下文线索对齐来

本文提出ViLU框架,用于视觉语言模型(VLMs)的不确定性量化(UQ)与故障检测。针对传统最大概念匹配(MCM)方法在模糊概念下易产生高置信度错误的问题,ViLU通过分析视觉嵌入、文本嵌入及跨模态交互,构建全局不确定性表征。该框架采用事后处理方法,不修改模型内部结构,将故障预测建模为二元分类任务,使用加权交叉熵损失区分正确/错误预测。ViLU同时支持图像-标签和图像-字幕两类任务,适用于标准分类








