
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
多模态大模型如何在图文交错生成任务中,自主规划何时、何地及调用何种工具以统一事实性与创造性?论文提出了智能体工具规划新范式,构建了首个支持混合图像来源的 ATP-Bench 基准及无需真值的多智能体评估系统 MAM。

如何设计有效的组织结构以优化基于大语言模型的多智能体系统在复杂推理任务中的协作效率与性能?论文提出了 OrgAgent 框架,首次系统性证实公司式层级结构在多数场景下优于扁平化结构,能显著提升任务准确率并大幅降低 Token 消耗。

在开放式发现任务中,能否通过将进化算法的决策权(如检索、评估时机、知识积累)完全交给自主智能体,并引入多智能体并行协作机制,从而突破现有固定启发式搜索方法的性能瓶颈?提出了面向开放式问题的自主多智能体进化框架 CORAL,通过共享持久记忆和心跳机制,在多个任务上刷新了最先进水平。

如何克服现有基准在交互多样性、失败可观测性及长程真实性上的不足,以有效评估多步交互中的智能体安全风险?论文提出了 ATBench,一个包含三维风险分类体系、异构工具池及延迟触发机制的多样化且真实的智能体轨迹安全评估基准。

如何解决因机器学习任务验证耗时过长而导致无法对大模型智能体进行大规模在线强化学习训练的瓶颈?论文提出了 SandMLE 框架,通过多智能体生成微缩数据的合成环境,将执行速度提升 13 倍以上,首次实现了机器学习工程领域的轨迹级在线强化学习。

如何解决因缺乏真实多样环境及持续学习机制,导致大模型难以成为通用智能体的问题?论文提出了 Agent-World,一个结合可扩展真实环境合成与连续自进化训练的闭环框架,实现了策略与环境的协同演进。

随着智能体执行环境日益多样化,如何在不重构整个评估框架的前提下,高效地为新场景定制轨迹级的安全评估与诊断基准?论文提出了 ATBench-Claw 和 ATBench-CodeX 两个领域定制化基准,证明了通过调整三维安全分类法即可将通用的 ATBench 框架扩展至 OpenClaw 和 Codex 等新执行环境。

多模态智能体如何克服盲目调用工具的缺陷,学会在内部知识与外部工具间进行明智的元认知仲裁?论文提出了分层解耦策略优化框架 HDPO,通过条件优势估计将准确率与效率目标正交化,训练出能大幅减少冗余工具调用且提升推理精度的 Metis 模型。

如何在缺乏标准答案(金标监督)的情况下,有效训练能够进行复杂多步检索的搜索智能体?提出了循环一致搜索(CCS)框架,利用搜索轨迹重构原始问题的质量作为代理奖励,实现了无需金标监督的高效智能体训练。

如何有效利用额外的推理计算资源来提升长周期代码智能体(Agentic Coding)的性能,解决传统方法难以直接比较和复用冗长交互轨迹的难题?提出了一种基于紧凑结构化摘要表示的统一测试时扩展框架,结合递归锦标赛投票与并行蒸馏优化,显著提升了前沿模型在复杂代码基准上的表现。








