
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations(ACL 2025)
本文提出EXPERT,一种基于视觉语言模型的无参考图像字幕评估指标。通过构建包含42,000+结构化解释的数据集(Polaris-exp和Nebula-exp),从流畅性、相关性和描述性三个维度规范解释生成。设计两阶段评估模板:先评分后解释,并采用LLaVA-1.5模型进行监督训练。方法解决了现有指标解释不一致和质量未验证的问题,通过人工评估验证了解释质量,最终实现兼具数字评分和结构化文本解释的可

OneStage Reflective Chain-of-Thoughts for Training Free ZeroShot Composed Image Retrieval(CVPR 2025)
组合图像检索(CIR)旨在检索与参考图像密切相似的目标图像,同时整合用户指定的文本修改,从而更准确地捕捉用户意图。本文提出了一种新颖的无训练的单阶段方法,用于零样本组合图像检索(ZS-CIR)的单阶段反思思维链推理(OSrCIR),该方法采用多模态大型语言模型来保留必要的视觉信息在单阶段推理过程中进行改进,消除了两阶段方法中的信息丢失。我们的反思思维链框架通过将操纵意图与参考图像的上下文线索对齐来

ViLU: Learning Vision-Language Uncertainties for Failure Prediction
本文提出ViLU框架,用于视觉语言模型(VLMs)的不确定性量化(UQ)与故障检测。针对传统最大概念匹配(MCM)方法在模糊概念下易产生高置信度错误的问题,ViLU通过分析视觉嵌入、文本嵌入及跨模态交互,构建全局不确定性表征。该框架采用事后处理方法,不修改模型内部结构,将故障预测建模为二元分类任务,使用加权交叉熵损失区分正确/错误预测。ViLU同时支持图像-标签和图像-字幕两类任务,适用于标准分类

到底了







