
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文系统研究了多模态检索增强生成(mRAG)的设计空间,针对大型视觉语言模型(LVLMs)存在的静态数据局限、幻觉问题和位置注意力偏差,提出完整解决方案。研究首次拆解了mRAG的检索、重排序、生成三阶段,通过实验验证了EVA-CLIP分数融合检索器、LVLM列表重排序和Top-1文档生成的最优组合,并提出统一智能体框架实现动态证据筛选。在E-VQA和InfoSeek数据集上平均提升5%性能,为多模

本文系统研究了多模态检索增强生成(mRAG)的设计空间,针对大型视觉语言模型(LVLMs)存在的静态数据局限、幻觉问题和位置注意力偏差,提出完整解决方案。研究首次拆解了mRAG的检索、重排序、生成三阶段,通过实验验证了EVA-CLIP分数融合检索器、LVLM列表重排序和Top-1文档生成的最优组合,并提出统一智能体框架实现动态证据筛选。在E-VQA和InfoSeek数据集上平均提升5%性能,为多模

本文提出LILaC框架,针对多模态文档检索中的粒度僵化和多跳推理薄弱问题,创新性地融合分层组件图与晚期交互子图检索方法。通过构建粗粒度-细粒度双层图结构显式建模组件关系,并采用查询分解与动态图遍历实现精准匹配。实验表明,LILaC在五大基准数据集上Recall@3平均提升14.24%,MRR@10提升15.75%,尤其在多跳场景优势显著。该方法无需额外微调,为开放域多模态检索提供了新范式,具有重要

本研究提出REAL-MM-RAG基准数据集,解决多模态检索评估中的真实性问题。通过自动化流程构建包含8000页多模态文档和5000个自然查询的数据集,重点评估模型在表格处理与查询重述鲁棒性上的表现。研究发现:1)视觉驱动模型优于文本驱动模型,但表格场景仍存在显著短板;2)查询重述导致性能下降29%-48.6%。针对性地设计了重述训练集和金融表格训练集,微调后模型性能提升36.2%,表格场景提升98

天津大学团队提出DualRAG框架,针对多跳问答任务中迭代式RAG方法的三大痛点(被动识别知识缺口、检索针对性不足、信息组织混乱),创新性地设计了"推理增强查询(RaQ)+渐进式知识聚合(pKA)"双流程系统。RaQ通过主动推理识别知识需求并生成靶向查询,pKA围绕实体结构化整合检索结果形成知识大纲。实验表明,该框架在多个数据集上性能接近Oracle上限,且通过专用数据集微调可

本文提出首个大规模多模态问答数据集MMQA,包含29,918个需整合文本、表格、图像三种模态的复杂问答样本。通过创新性的形式化语言组合框架,实现了跨模态问题的规模化生成。针对该任务,研究团队开发了ImplicitDecomp模型,通过隐式分解问题类型实现多跳推理,在跨模态问题上F1达51.7,显著超越单跳基线(38.2)。实验显示人类表现(F1 90.1)远超模型,表明该任务具有重要研究价值。该工

摘要:OPPO团队提出E-Agent框架优化多模态检索增强生成(mRAG)系统,通过动态规划机制解决现有方法检索策略僵化、视觉利用不足等问题。研究构建了RemPlan基准数据集(200个样本),包含四类问题类型和解耦式评估指标,首次实现规划能力专项评测。实验显示E-Agent在准确率提升13%的同时减少37%冗余搜索,在RemPlan及主流数据集上均达SOTA性能。该工作为多模态问答系统提供了高效

本文提出SCIENCEQA数据集,包含21,208个多模态科学问题,首次标注"讲义"和"解释"以支持可解释推理。研究设计了基于思维链(CoT)的模型,在少样本(GPT-3)和微调(UnifiedQA)场景中均显著提升性能:GPT-3(CoT)准确率达75.17%,UnifiedQA(CoT)提升3.99%,且65.2%的生成解释符合人类标准。实验表明CoT能

本文提出FaithEval基准,首次系统评估大语言模型在复杂上下文场景中的忠实性表现。该基准包含4.9K样本,覆盖不可回答、矛盾、反事实三类核心任务,通过四阶段构建框架确保数据质量。实验评估18款主流模型发现:1)当前模型忠实性普遍不足,Claude3.5表现最佳但仍有显著差距;2)模型规模与忠实性无正相关,小模型在反事实任务中展现优势;3)闭源模型在冲突识别上领先,但整体仍有提升空间。研究揭示了

本文系统研究了大语言模型(LLMs)的任务可行性识别与拒绝能力,首次明确定义并分类了不可行任务(物理交互、虚拟交互、非文本处理、自我意识四类),构建了包含可行/不可行任务的基准数据集InfeasibleBenchmark。实验表明,主流LLMs中GPT-4表现最优(AUROC达0.967),但原生拒绝能力普遍不足。通过选择式微调策略,LLaMA2-7B的拒绝率从13%提升至73.5%,超越了GPT








