logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

《ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents》

本文提出ViDoRAG框架,针对视觉丰富文档(VRD)的大规模检索与问答难题进行创新突破。通过多模态混合检索(融合文本OCR与视觉特征)和动态自适应召回策略(GMM优化Top-K),显著提升跨文档检索效率(平均检索页数减少32%)。创新设计多智能体迭代推理机制(Seeker-Inspector-Answerer协同),在自建评估基准ViDoSeek上实现10%的性能跃升,尤其在布局类问题表现突出(

文章图片
#人工智能#机器学习#深度学习
《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》

​:Agentic RL通过将LLMs重构为环境交互代理,在检索精度(+11%)、响应速度(1.8s→1.5s)和任务泛化性(7数据集全提升)实现三重突破。随着NVIDIA Blackwell架构支持万亿参数RL训练,该范式有望成为AGI核心基础设施。

文章图片
#人工智能#目标跟踪#算法 +1
《M-RAG: Reinforcing Large Language Model Performance through Retrieval-Augmented Generation with Mul

华为团队提出M-RAG框架,通过多分区检索和双代理强化学习提升大语言模型性能。该技术突破传统RAG的单数据库检索局限,采用四类分区策略(随机化、聚类、索引、类别)优化检索效率,并构建分区选择代理(Agent-S)和记忆优化代理(Agent-R)实现协同优化。实验表明,M-RAG在7大数据集上显著提升任务性能:文本摘要ROUGE-1最高提升11%,机器翻译BLEURT达71.74,对话生成BLEU-

文章图片
#语言模型#人工智能#自然语言处理
《M-RAG: Reinforcing Large Language Model Performance through Retrieval-Augmented Generation with Mul

本文提出M-RAG框架,通过多分区检索增强生成技术解决传统RAG系统的关键问题。研究将知识库划分为M个独立分区(如M=4),采用双代理强化学习机制:Agent-S负责最优分区选择,Agent-R优化检索记忆。实验显示,在文本摘要、机器翻译和对话生成任务中,M-RAG平均性能提升10.3%,ROUGE-1达48.13。该框架支持细粒度检索、隐私保护和分布式处理,但存在训练开销较大等局限。未来将探索动

文章图片
#人工智能#大数据#深度学习
《OMNIEAR: BENCHMARKING AGENT REASONING IN EMBODIED TASKS》

论文《OMNIEAR: BENCHMARKING AGENT REASONING IN EMBODIED TASKS》提出首个评估具身智能体物理推理能力的基准。针对现有基准在连续物理属性建模、动态工具获取和隐式协作识别方面的不足,该研究构建了包含1,500个场景的三层次评估体系,涵盖单代理基础指令到多代理复合协作任务。实验发现:大模型在隐式推理任务中性能骤降29%,72B参数后出现性能饱和;多代理

文章图片
#人工智能#算法
四个典型框架对比

选择多智能体框架就像为项目挑选合适的“团队协作模式”。​​AutoGen​​ 像是一个​​专业的软件开发团队​​,擅长编码和自动化。​​ 像是一位​​强大的架构师​​,能设计和管理极其复杂的工作流。​​CrewAI​​ 像一个​​高效的轻量级任务小组​​,追求快速响应和简单配置。​​MetaGPT​​ 则是一个​​虚拟的软件公司​​,能模拟从产品到测试的完整流程。希望这些信息能帮助你做出更好的选择

#深度学习#大数据#人工智能
一个好的智能体框架应该是什么样子

优秀多智能体协同框架应具备八大核心特征:模块化分工、高效通信机制、协同控制流、知识共享系统、冲突解决机制、自我改进能力、人机协同接口和可观测性设计。理想框架应像专业团队一样运作,支持动态角色分配(如产品经理、开发、测试等智能体),采用标准化通信协议,并具备状态同步和记忆管理能力。关键评估维度包括协同效率、方案质量、系统鲁棒性和可扩展性。不同框架各有侧重:AutoGen适合商业应用,CAMEL擅长复

#人工智能#网络#microsoft
Multi-Head RAG: Solving Multi-Aspect Problems with LLMs

《Multi-HeadRAG:基于多头注意力的大模型多维度检索增强生成方法》提出创新性解决方案,突破传统RAG在复杂查询中的性能瓶颈。研究揭示传统方法因单向量表征导致多维度语义丢失(如跨领域查询召回率不足40%),而MRAG通过提取Transformer多头注意力输出,零成本生成多组嵌入向量,分别捕获不同语义维度。实验表明,该方法在合成/工业数据集上实现20%召回率提升,且保持存储效率(总维度不变

文章图片
#人工智能
《MRAMG-Bench: A Comprehensive Benchmark for Advancing Multimodal Retrieval-Augmented Multimodal Gene

《MRAMG-Bench:多模态检索增强生成综合基准》解析 该论文创新性地提出了多模态检索增强多模态生成(MRAMG)任务,突破传统RAG仅输出文本的局限,要求系统生成图文交织的答案。研究团队构建了包含4,800QA对的跨领域评测基准MRAMG-Bench,涵盖网页、学术、生活三大场景,首创支持动态图像插入位置评估的体系。实验对比11个模型发现:GPT-4o在LLM-Based方法中表现最优(平均

文章图片
#人工智能#深度学习#大数据
《HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation》

《HM-RAG:分层多智能体多模态检索增强生成》论文提出创新框架解决传统RAG系统的三大局限:模态割裂、信息损失和实时性不足。该架构通过分解代理、多源检索代理(文本/图谱/网络)和决策代理的三级协作,实现跨模态知识融合。实验表明,在ScienceQA和CrisisMMD基准上准确率提升12.95%,参数量7B即超越72B模型。关键技术包括模块化设计、多模态残差学习和专家引导精炼,在医疗、工业、金融

文章图片
#大数据#spring#深度学习
    共 23 条
  • 1
  • 2
  • 3
  • 请选择