
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
25年9月来自香港科大、北京微软研究院、武汉大学、中科院大学、清华大学、西工大和中南大学的论文“Beyond Human Demonstrations: Diffusion-Based Reinforcement Learning to Generate Data for VLA Training”。视觉-语言-动作 (VLA) 模型在各种任务和具体实现中展现出强大的泛化能力;然而,由于手动数据收

25年9月来自理想汽车的论文“VLA-LPAF: Lightweight Perspective-Adaptive Fusion for Vision-Language-Action to Enable More Unconstrained Robotic Manipulation”。视觉-语言-动作 (VLA) 模型可以根据对周围环境的视觉观察来遵循文本指令。这种将多模态输入映射到动作的能力,源

25年9月来自清华和复旦的综述论文“Embodied AI: From LLMs to World Models”。具身人工智能 (AI) 是实现通用人工智能 (AGI) 的智能系统范式,是各种应用的基石,并推动着从网络空间到物理系统的演进。大语言模型 (LLM) 和世界模型 (WM) 的最新突破,引发了人们对具身人工智能的广泛关注。一方面,LLM 通过语义推理和任务分解赋能具身人工智能,将高级自

25年9月来自清华和复旦的综述论文“Embodied AI: From LLMs to World Models”。具身人工智能 (AI) 是实现通用人工智能 (AGI) 的智能系统范式,是各种应用的基石,并推动着从网络空间到物理系统的演进。大语言模型 (LLM) 和世界模型 (WM) 的最新突破,引发了人们对具身人工智能的广泛关注。一方面,LLM 通过语义推理和任务分解赋能具身人工智能,将高级自

25年9月来自俄国斯科尔科沃科学技术学院 (Skoltech) 的论文“PhysicalAgent: Towards General Cognitive Robotics with Foundation World Models”。PhysicalAgent,是一个用于机器人操作的智体框架,它集成迭代推理、基于扩散的视频生成和闭环执行。给定文本指令,该方法会生成候选轨迹的简短视频演示,在机器人上执

25年3月来自北京大学、UIC、广东大亚湾大学、中科院计算机网络信息中心、新加坡南阳理工、UCLA、西雅图华盛顿大学、北京外经贸大学、乔治亚理工和腾讯优图的论文“Large Language Model Agent: A Survey on Methodology, Applications and Challenges”。智体时代已经到来,大语言模型的革命性进步推动这一时代。大语言模型 (LLM

23年5月中科院软件研究所和中科院大学的论文“ToolAlpaca: Generalized Tool Learning for Language Models with 3000 Simulated Cases”。

25年9月来自新加坡国立、浙大、地平线机器人公司、慕尼黑工大、香港科大、清华、南京理工、澳门大学和上海AI实验室的论文“3D and 4D World Modeling: A Survey”。世界建模已成为人工智能研究的基石,使智体能够理解、表征和预测其所处的动态环境。尽管先前的研究主要侧重于二维图像和视频数据的生成方法,但却忽略利用原生三维和四维表征(例如RGB-D图像、占用网格和激光雷达点云)

25年9月来自新加坡国立、浙大、地平线机器人公司、慕尼黑工大、香港科大、清华、南京理工、澳门大学和上海AI实验室的论文“3D and 4D World Modeling: A Survey”。世界建模已成为人工智能研究的基石,使智体能够理解、表征和预测其所处的动态环境。尽管先前的研究主要侧重于二维图像和视频数据的生成方法,但却忽略利用原生三维和四维表征(例如RGB-D图像、占用网格和激光雷达点云)

25年7月来自阿联酋 MBZUAI、CMU 和 UCSD的论文“Critiques of World Models”。世界模型,即生物智体所体验并采取行动的现实世界环境算法替代,近年来由于开发具有人工智能(通用)虚拟智体的需求日益增长,其成为新话题。关于世界模型的真正含义、如何构建、如何使用以及如何评估它,一直存在诸多争论。本文以著名科幻经典《沙丘(Dune)》中的想象为起点,并借鉴心理学文献中“
