logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation

本文系统研究了多模态检索增强生成(mRAG)的设计空间,针对大型视觉语言模型(LVLMs)存在的静态数据局限、幻觉问题和位置注意力偏差,提出完整解决方案。研究首次拆解了mRAG的检索、重排序、生成三阶段,通过实验验证了EVA-CLIP分数融合检索器、LVLM列表重排序和Top-1文档生成的最优组合,并提出统一智能体框架实现动态证据筛选。在E-VQA和InfoSeek数据集上平均提升5%性能,为多模

文章图片
#人工智能#算法
mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation

本文系统研究了多模态检索增强生成(mRAG)的设计空间,针对大型视觉语言模型(LVLMs)存在的静态数据局限、幻觉问题和位置注意力偏差,提出完整解决方案。研究首次拆解了mRAG的检索、重排序、生成三阶段,通过实验验证了EVA-CLIP分数融合检索器、LVLM列表重排序和Top-1文档生成的最优组合,并提出统一智能体框架实现动态证据筛选。在E-VQA和InfoSeek数据集上平均提升5%性能,为多模

文章图片
#人工智能#算法
LILaC: Late Interacting in Layered Component Graph for Open-domain Multimodal Multihop Retrieval

本文提出LILaC框架,针对多模态文档检索中的粒度僵化和多跳推理薄弱问题,创新性地融合分层组件图与晚期交互子图检索方法。通过构建粗粒度-细粒度双层图结构显式建模组件关系,并采用查询分解与动态图遍历实现精准匹配。实验表明,LILaC在五大基准数据集上Recall@3平均提升14.24%,MRR@10提升15.75%,尤其在多跳场景优势显著。该方法无需额外微调,为开放域多模态检索提供了新范式,具有重要

文章图片
#人工智能
REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark

本研究提出REAL-MM-RAG基准数据集,解决多模态检索评估中的真实性问题。通过自动化流程构建包含8000页多模态文档和5000个自然查询的数据集,重点评估模型在表格处理与查询重述鲁棒性上的表现。研究发现:1)视觉驱动模型优于文本驱动模型,但表格场景仍存在显著短板;2)查询重述导致性能下降29%-48.6%。针对性地设计了重述训练集和金融表格训练集,微调后模型性能提升36.2%,表格场景提升98

文章图片
#人工智能#深度学习#机器学习
DualRAG: A Dual-Process Approach to Integrate Reasoning and Retrieval for Multi-Hop Question Answer

天津大学团队提出DualRAG框架,针对多跳问答任务中迭代式RAG方法的三大痛点(被动识别知识缺口、检索针对性不足、信息组织混乱),创新性地设计了"推理增强查询(RaQ)+渐进式知识聚合(pKA)"双流程系统。RaQ通过主动推理识别知识需求并生成靶向查询,pKA围绕实体结构化整合检索结果形成知识大纲。实验表明,该框架在多个数据集上性能接近Oracle上限,且通过专用数据集微调可

文章图片
#人工智能#算法#大数据
MULTIMODALQA: COMPLEX QUESTION ANSWERING OVER TEXT, TABLES AND IMAGES

本文提出首个大规模多模态问答数据集MMQA,包含29,918个需整合文本、表格、图像三种模态的复杂问答样本。通过创新性的形式化语言组合框架,实现了跨模态问题的规模化生成。针对该任务,研究团队开发了ImplicitDecomp模型,通过隐式分解问题类型实现多跳推理,在跨模态问题上F1达51.7,显著超越单跳基线(38.2)。实验显示人类表现(F1 90.1)远超模型,表明该任务具有重要研究价值。该工

文章图片
#人工智能#深度学习#计算机视觉
Efficient Agent: Optimizing Planning Capability for MultimodalRetrieval Augmented Generation

摘要:OPPO团队提出E-Agent框架优化多模态检索增强生成(mRAG)系统,通过动态规划机制解决现有方法检索策略僵化、视觉利用不足等问题。研究构建了RemPlan基准数据集(200个样本),包含四类问题类型和解耦式评估指标,首次实现规划能力专项评测。实验显示E-Agent在准确率提升13%的同时减少37%冗余搜索,在RemPlan及主流数据集上均达SOTA性能。该工作为多模态问答系统提供了高效

文章图片
#人工智能#算法
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

本文提出SCIENCEQA数据集,包含21,208个多模态科学问题,首次标注"讲义"和"解释"以支持可解释推理。研究设计了基于思维链(CoT)的模型,在少样本(GPT-3)和微调(UnifiedQA)场景中均显著提升性能:GPT-3(CoT)准确率达75.17%,UnifiedQA(CoT)提升3.99%,且65.2%的生成解释符合人类标准。实验表明CoT能

文章图片
#人工智能
FAITHEVAL: CAN YOUR LANGUAGE MODEL STAYFAITHFUL TO CONTEXT, EVEN IF “THE MOON ISMADE OF MARSHMALLO

本文提出FaithEval基准,首次系统评估大语言模型在复杂上下文场景中的忠实性表现。该基准包含4.9K样本,覆盖不可回答、矛盾、反事实三类核心任务,通过四阶段构建框架确保数据质量。实验评估18款主流模型发现:1)当前模型忠实性普遍不足,Claude3.5表现最佳但仍有显著差距;2)模型规模与忠实性无正相关,小模型在反事实任务中展现优势;3)闭源模型在冲突识别上领先,但整体仍有提升空间。研究揭示了

文章图片
#语言模型#人工智能#自然语言处理
Defining Boundaries: A Spectrum of Task Feasibility forLarge Language Models

本文系统研究了大语言模型(LLMs)的任务可行性识别与拒绝能力,首次明确定义并分类了不可行任务(物理交互、虚拟交互、非文本处理、自我意识四类),构建了包含可行/不可行任务的基准数据集InfeasibleBenchmark。实验表明,主流LLMs中GPT-4表现最优(AUROC达0.967),但原生拒绝能力普遍不足。通过选择式微调策略,LLaMA2-7B的拒绝率从13%提升至73.5%,超越了GPT

文章图片
#语言模型#人工智能#自然语言处理
    共 40 条
  • 1
  • 2
  • 3
  • 4
  • 请选择