logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Hyperagents

本文提出"DGM-Hyperagents"框架,通过整合任务智能体与可自修改的元智能体,实现跨领域的元认知自改进。实验表明,该框架在编码、论文评审等四类任务中均显著提升性能,并能实现元能力的跨领域迁移和累积优化。相比传统方法,DGM-H突破了固定元机制限制,展现出自主演化高级元认知策略的能力,为通用自加速AI系统提供了新范式。研究同时指出了安全挑战和当前局限,为未来研究指明了方

文章图片
#人工智能
CogPlanner: Unveiling the Potential of Agentic MultimodalRetrieval Augmented Generation with Plan

本文提出多模态检索增强生成规划(MRAGPlanning)新任务,旨在解决现有MRAG系统检索策略僵化、查询表述不足等问题。创新性地设计了CogPlanner框架,通过迭代式查询重构与动态检索策略选择,实现自适应信息获取。该框架采用插件式设计,支持并行/顺序建模,可无缝集成现有系统。研究还构建了CogBench基准数据集(含5718个样本),支持细粒度评估。实验表明,CogPlanner较基线方法

#人工智能#python#算法
Cross-Modal Retrieval from Coarse-Grained to Fine-Grained Perspectives: A Survey

北京大学彭宇新教授团队在《Journal of Computer Science and Technology》发表综述论文,针对跨模态检索(CMR)研究存在的分类体系过时、细粒度任务覆盖不足等问题,提出以"检索粒度"为核心的统一分类框架。该框架首次将CMR明确划分为粗粒度(CCMR)和细粒度(FCMR)检索,系统梳理了两类任务的主流方法、数据集及性能对比,并重点分析了视觉-语

文章图片
#人工智能
AOAD-MAT: Transformer-based Multi-AgentDeep Reinforcement Learning Model consideringAgents’ Order

本文提出AOAD-MAT模型,在多智能体强化学习(MARL)中首次显式优化智能体动作决策顺序。该模型基于Multi-Agent Transformer架构,通过动态预测决策顺序和协同损失函数设计,实现了动作预测和顺序预测的双任务联合优化。实验表明,AOAD-MAT在StarCraft多智能体挑战赛(SMAC)和MuJoCo连续控制任务中均超越现有最优方法,验证了决策顺序优化对提升多智能体协作性能和

文章图片
#transformer#深度学习#人工智能
RegionRAG: Region-level Retrieval-Augumented Generationfor Visually-Rich Documents

首次将检索粒度从文档级下沉至区域级,通过训练阶段的混合监督策略与推理阶段的动态区域分组机制,在过滤冗余信息的同时提升检索与生成效率,在 6 个主流基准数据集上实现性能突破,相关代码已开源(

文章图片
#人工智能#算法
HiMo-CLIP: Modeling Semantic Hierarchy and Monotonicity in Vision-Language Alignment

摘要:本文提出HiMo-CLIP框架,针对传统CLIP模型在处理长文本时忽略语义层次和单调性的问题,通过层次分解模块(HiDe)和单调性感知对比损失(MoLo)实现改进。HiDe利用批次内PCA动态提取核心语义组件,MoLo通过双分支损失隐式强化语义单调性。实验表明,该框架在长文本检索任务中性能显著提升(如Docci T2R达84.4%),同时保持短文本兼容性,并首次量化验证了语义单调性(HiMo

文章图片
#人工智能#大数据
Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation

本文提出HM-RAG框架,通过分层多智能体架构解决多模态检索中的关键挑战。该框架将查询处理分解为专用智能体组件,支持向量、图、网络数据库的即插即用检索集成,并引入专家引导的精修流程。在ScienceQA和CrisisMMD数据集上,HM-RAG在零样本设置下实现state-of-the-art性能,平均准确率分别达到93.73%和58.55%,显著超越基线模型。消融实验验证了决策智能体在多源答案融

文章图片
#人工智能#算法
Improving the Scaling Laws of Synthetic Data with Deliberate Practice

本文提出DP框架,基于"刻意练习"原则动态生成高信息合成数据,解决传统方法中数据冗余和收益递减问题。通过熵引导采样机制直接生成高挑战性样本,比传统"生成-剪枝"方法效率提升5倍。理论分析表明该方法优化了缩放定律,实验在ImageNet-100/1k上实现性能突破:数据量减少3.4-8倍,迭代次数减少30%-84%,且在OOD数据集表现优于真实数据训练。该框架

文章图片
#人工智能#深度学习#机器学习
Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger

本文提出RCTS多模态检索增强生成框架,通过构建含推理上下文的知识库和树搜索重排序方法,有效解决大视觉语言模型在视觉问答中的幻觉问题和指令失准问题。框架采用自洽评估机制生成推理上下文,结合混合嵌入检索策略,并创新性地提出带启发式奖励的蒙特卡洛树搜索算法对检索样本重排序。实验表明,RCTS在多个推理/非推理VQA数据集上显著优于现有方法,最高提升11.81%。消融实验验证了推理上下文和MCTS-HR

文章图片
#语言模型#人工智能#算法
On Path to Multimodal Generalist: General-Level and General-Bench

本文针对多模态大语言模型(MLLMs)评估标准缺失问题,提出General-Level理论框架和General-Bench基准测试,包含700+任务和32.5万+实例,全面评估跨模态、跨任务的通用能力。研究发现现有模型存在"伪通用"现象,过度依赖语言智能,在复杂跨模态任务上表现不足。通过测试100+主流模型发现,即使顶尖模型如GPT-4o、Gemini-1.5也存在能力盲区,凸

文章图片
#人工智能#机器学习
    共 55 条
  • 1
  • 2
  • 3
  • 6
  • 请选择