logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ICML 2025 高分Oral! 从神经架构搜索到智能体架构搜索:NUS提出多智能体超网络MaAS

摘要:新加坡国立大学团队提出多智能体架构搜索框架MaAS,通过构建"智能体超网"(Agentic Supernet)实现任务自适应的动态团队组建。该框架包含三层核心机制:1)构建包含所有可能工作流的超网;2)通过轻量级调度师动态采样最优执行路径;3)基于文本梯度的联合优化。实验表明,MaAS在6个基准测试中达到83.59%的平均性能,同时将推理成本降至基线方法的25%。其创新性

文章图片
#架构#人工智能
周四晚8点!一起聊聊从 LLM-RL 到 Agentic RL:如何让语言模型成为自主智能体

这篇论文主要调研作用于LLM的Agentic Reinforcement Learning(LLM Agentic RL)如何以POMDP形式化框架将大型语言模型从静态文本生成器转化为可在动态环境中自主决策、持续演化的智能体。

文章图片
#语言模型#人工智能#自然语言处理
周四晚8点!一起聊聊从 LLM-RL 到 Agentic RL:如何让语言模型成为自主智能体

这篇论文主要调研作用于LLM的Agentic Reinforcement Learning(LLM Agentic RL)如何以POMDP形式化框架将大型语言模型从静态文本生成器转化为可在动态环境中自主决策、持续演化的智能体。

文章图片
#语言模型#人工智能#自然语言处理
挑战Claude4的8B Agent!NUS提出AgenTracer:面向多智能体系统的失败归因

摘要: 新加坡国立大学研究团队针对多智能体系统(Multi-Agent Systems)高失败率问题,提出首个全自动失败归因框架AgenTracer。通过构建TracerTraj数据集(2000+高保真失败轨迹)和设计多粒度强化学习算法,其微调的8B参数模型在定位根本错误时,准确率超越GPT-4.1等大型模型达18.18%。实验表明,该框架不仅能精准识别导致系统失败的**"决定性错误&q

文章图片
#人工智能
ChatRex & RexSeek & RexThinker: 结合多模态大语言模型的目标检测模型构建

ChatRex、RexSeek 和 RexThinker,这三者分别代表着目标检测任务从自然语言理解、到指代消解、再到多模态推理能力的三次进化。

文章图片
#经验分享#人工智能#计算机视觉 +2
聊聊在大模型推理强化学习中熵机制上的探索

强化学习训练大语言模型时普遍存在策略熵快速下降的问题,导致模型过度自信、探索能力受限。研究发现模型性能(R)与策略熵(H)呈指数关系R=-a*exp(H)+b,揭示了性能提升以熵消耗为代价的本质,并表明存在理论性能上限。研究进一步发现熵变化主要由动作概率与logits变化量的协方差驱动,高概率高优势动作会降低熵。基于此,团队提出Clip-Cov和KL-Cov两种熵控制方法,通过对高协方差token

文章图片
#人工智能
    共 53 条
  • 1
  • 2
  • 3
  • 6
  • 请选择