
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
关注公众号:青稞AI,学习最新AI技术

关注公众号:青稞AI,学习最新AI技术

摘要:新加坡国立大学团队提出多智能体架构搜索框架MaAS,通过构建"智能体超网"(Agentic Supernet)实现任务自适应的动态团队组建。该框架包含三层核心机制:1)构建包含所有可能工作流的超网;2)通过轻量级调度师动态采样最优执行路径;3)基于文本梯度的联合优化。实验表明,MaAS在6个基准测试中达到83.59%的平均性能,同时将推理成本降至基线方法的25%。其创新性

这篇论文主要调研作用于LLM的Agentic Reinforcement Learning(LLM Agentic RL)如何以POMDP形式化框架将大型语言模型从静态文本生成器转化为可在动态环境中自主决策、持续演化的智能体。

这篇论文主要调研作用于LLM的Agentic Reinforcement Learning(LLM Agentic RL)如何以POMDP形式化框架将大型语言模型从静态文本生成器转化为可在动态环境中自主决策、持续演化的智能体。

青稞Talk 第77期,香港中文大学王鸿儒博士,将直播分享《

摘要: 新加坡国立大学研究团队针对多智能体系统(Multi-Agent Systems)高失败率问题,提出首个全自动失败归因框架AgenTracer。通过构建TracerTraj数据集(2000+高保真失败轨迹)和设计多粒度强化学习算法,其微调的8B参数模型在定位根本错误时,准确率超越GPT-4.1等大型模型达18.18%。实验表明,该框架不仅能精准识别导致系统失败的**"决定性错误&q

ChatRex、RexSeek 和 RexThinker,这三者分别代表着目标检测任务从自然语言理解、到指代消解、再到多模态推理能力的三次进化。

强化学习训练大语言模型时普遍存在策略熵快速下降的问题,导致模型过度自信、探索能力受限。研究发现模型性能(R)与策略熵(H)呈指数关系R=-a*exp(H)+b,揭示了性能提升以熵消耗为代价的本质,并表明存在理论性能上限。研究进一步发现熵变化主要由动作概率与logits变化量的协方差驱动,高概率高优势动作会降低熵。基于此,团队提出Clip-Cov和KL-Cov两种熵控制方法,通过对高协方差token

大模型产品每周的最新进展和创新应用
