
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在AFLOW中,一个完整的智能体工作流(W)被定义为由一系列LLM调用节点(N)和连接节点的边(E)组成的集合。模型(M):调用的具体语言模型提示词(P):输入给模型的任务描述温度系数(T):控制输出随机性的参数(取值0-1)输出格式(F):如XML、JSON等结构化格式要求而边则定义了节点间的执行逻辑关系,AFLOW创新性地采用代码表示边结构,这使得工作流能够自然表达顺序执行、条件分支、循环迭代
在人工智能领域,形式化数学证明长期以来被视为衡量机器推理能力的"珠穆朗玛峰"。从古希腊几何公理到现代数学的复杂定理,人类依靠逻辑演绎构建了宏伟的知识大厦,而让机器掌握这种精密推理能力一直是AI研究的核心目标。近期,字节跳动Seed团队发布的Delta Prover框架在这一领域取得了突破性进展——无需专门训练,仅通过通用大模型与Lean 4证明环境的智能协作,就在miniF2F-test基准测试中
SICA的提出和实现,标志着智能体系统进入了一个新的发展阶段。通过自主编辑自身代码库实现自我改进,SICA在SWE-Bench Verified等基准测试中展现出从17%到53%的性能提升,同时平均每个问题的花费时间也略有减少。这一成果证明了自我改进在智能体系统中的可行性,尤其是在那些基础LLMs能从支架系统的结构和指导中显著获益的长期“智能体”任务中。SICA框架不仅提供了一种自动化智能体系统设
在人工智能领域,大语言模型(LLMs)的发展日新月异,但开源LLMs在工具使用能力方面,与闭源的先进模型(如ChatGPT)相比,仍存在明显差距。清华大学等机构的研究团队推出了ToolLLM框架,旨在填补这一空白,让开源LLMs能够熟练掌握各种API工具。下面将详细介绍这一具有创新性的研究成果。
论文地址:https://arxiv.org/pdf/2502.11098?摘要:近期,基于大语言模型的多智能体系统(LLM-MA)取得了令人瞩目的进展,但在智能体协作完成复杂任务时,通信与优化仍面临诸多挑战。本文提出了一种新颖的框架——Talk Structurally, Act Hierarchically(简称 TalkHier),该框架引入了结构化通信协议以实现更具上下文感知的交流,同时通

在人工智能领域,大语言模型(LLMs)的发展日新月异,但开源LLMs在工具使用能力方面,与闭源的先进模型(如ChatGPT)相比,仍存在明显差距。清华大学等机构的研究团队推出了ToolLLM框架,旨在填补这一空白,让开源LLMs能够熟练掌握各种API工具。下面将详细介绍这一具有创新性的研究成果。
GTA基准的提出标志着LLM工具使用评估向真实场景迈出了重要一步。实验结果显示,即使是最先进的LLMs在面对现实问题时仍表现有限,尤其是在多模态推理和参数准确预测方面。这一研究不仅揭示了当前模型的瓶颈,更为通用工具代理的发展指明了方向——未来的研究需要在多模态理解、动态工具规划和参数精确控制等方面取得突破。随着GTA等更贴近现实的评估基准的出现,我们有望见证更具实用性的AI助手的快速发展。
EMBODIEDBENCH的价值不仅在于揭示当前MLLMs的局限,更在于为具身智能研究提供了指南针。通过层次化任务设计和细粒度能力评估,研究人员得以精准定位模型短板,进而推动算法创新。从家庭助手到工业机器人,具身智能的落地离不开这种科学的评估范式——正如论文作者所言,“我们的基准不仅是一面镜子,更是一把钥匙,开启通往更强大具身智能的大门。
Leveraging large language models for predictive chemistry》的研究成果标志着化学与材料科学研究迈入了新的时代。大语言模型以其独特的知识迁移能力、数据效率和易用性,打破了传统机器学习在化学领域的局限,为从小分子设计到材料开发的全流程提供了智能支持。这项研究最深远的意义在于重塑了化学研究的方法论。未来,查询预训练语言模型可能成为研究启动的常规步骤
在AFLOW中,一个完整的智能体工作流(W)被定义为由一系列LLM调用节点(N)和连接节点的边(E)组成的集合。模型(M):调用的具体语言模型提示词(P):输入给模型的任务描述温度系数(T):控制输出随机性的参数(取值0-1)输出格式(F):如XML、JSON等结构化格式要求而边则定义了节点间的执行逻辑关系,AFLOW创新性地采用代码表示边结构,这使得工作流能够自然表达顺序执行、条件分支、循环迭代







