logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

超越人类示范:基于扩散的强化学习为 VLA 训练生成数据

25年9月来自香港科大、北京微软研究院、武汉大学、中科院大学、清华大学、西工大和中南大学的论文“Beyond Human Demonstrations: Diffusion-Based Reinforcement Learning to Generate Data for VLA Training”。视觉-语言-动作 (VLA) 模型在各种任务和具体实现中展现出强大的泛化能力;然而,由于手动数据收

文章图片
#机器学习#深度学习#机器人 +2
VLA-LPAF:视觉-语言-动作模型的轻量级视角-自适应融合,实现更不受约束的机器人操作

25年9月来自理想汽车的论文“VLA-LPAF: Lightweight Perspective-Adaptive Fusion for Vision-Language-Action to Enable More Unconstrained Robotic Manipulation”。视觉-语言-动作 (VLA) 模型可以根据对周围环境的视觉观察来遵循文本指令。这种将多模态输入映射到动作的能力,源

文章图片
#机器人#深度学习#语言模型 +2
具身智能:从 LLMs 到世界模型(下)

25年9月来自清华和复旦的综述论文“Embodied AI: From LLMs to World Models”。具身人工智能 (AI) 是实现通用人工智能 (AGI) 的智能系统范式,是各种应用的基石,并推动着从网络空间到物理系统的演进。大语言模型 (LLM) 和世界模型 (WM) 的最新突破,引发了人们对具身人工智能的广泛关注。一方面,LLM 通过语义推理和任务分解赋能具身人工智能,将高级自

文章图片
#机器人#语言模型#计算机视觉 +2
具身智能:从 LLMs 到世界模型(上)

25年9月来自清华和复旦的综述论文“Embodied AI: From LLMs to World Models”。具身人工智能 (AI) 是实现通用人工智能 (AGI) 的智能系统范式,是各种应用的基石,并推动着从网络空间到物理系统的演进。大语言模型 (LLM) 和世界模型 (WM) 的最新突破,引发了人们对具身人工智能的广泛关注。一方面,LLM 通过语义推理和任务分解赋能具身人工智能,将高级自

文章图片
#机器人#语言模型#计算机视觉 +2
PhysicalAgent:基于基础世界模型的通用认知机器人

25年9月来自俄国斯科尔科沃科学技术学院 (Skoltech) 的论文“PhysicalAgent: Towards General Cognitive Robotics with Foundation World Models”。PhysicalAgent,是一个用于机器人操作的智体框架,它集成迭代推理、基于扩散的视频生成和闭环执行。给定文本指令,该方法会生成候选轨迹的简短视频演示,在机器人上执

文章图片
#机器人#语言模型#机器学习 +2
大语言模型智体的综述:方法论、应用和挑战(下)

25年3月来自北京大学、UIC、广东大亚湾大学、中科院计算机网络信息中心、新加坡南阳理工、UCLA、西雅图华盛顿大学、北京外经贸大学、乔治亚理工和腾讯优图的论文“Large Language Model Agent: A Survey on Methodology, Applications and Challenges”。智体时代已经到来,大语言模型的革命性进步推动这一时代。大语言模型 (LLM

文章图片
#语言模型#人工智能#自然语言处理 +2
ToolAlpaca:3000个模拟案例的语言模型通用工具学习

23年5月中科院软件研究所和中科院大学的论文“ToolAlpaca: Generalized Tool Learning for Language Models with 3000 Simulated Cases”。

文章图片
#语言模型#学习#搜索引擎
3D 和 4D 世界建模:综述(下)

25年9月来自新加坡国立、浙大、地平线机器人公司、慕尼黑工大、香港科大、清华、南京理工、澳门大学和上海AI实验室的论文“3D and 4D World Modeling: A Survey”。世界建模已成为人工智能研究的基石,使智体能够理解、表征和预测其所处的动态环境。尽管先前的研究主要侧重于二维图像和视频数据的生成方法,但却忽略利用原生三维和四维表征(例如RGB-D图像、占用网格和激光雷达点云)

文章图片
#3d#人工智能#计算机视觉 +3
3D 和 4D 世界建模:综述(上)

25年9月来自新加坡国立、浙大、地平线机器人公司、慕尼黑工大、香港科大、清华、南京理工、澳门大学和上海AI实验室的论文“3D and 4D World Modeling: A Survey”。世界建模已成为人工智能研究的基石,使智体能够理解、表征和预测其所处的动态环境。尽管先前的研究主要侧重于二维图像和视频数据的生成方法,但却忽略利用原生三维和四维表征(例如RGB-D图像、占用网格和激光雷达点云)

文章图片
#3d#人工智能#计算机视觉 +3
对世界模型的批判(下)

25年7月来自阿联酋 MBZUAI、CMU 和 UCSD的论文“Critiques of World Models”。世界模型,即生物智体所体验并采取行动的现实世界环境算法替代,近年来由于开发具有人工智能(通用)虚拟智体的需求日益增长,其成为新话题。关于世界模型的真正含义、如何构建、如何使用以及如何评估它,一直存在诸多争论。本文以著名科幻经典《沙丘(Dune)》中的想象为起点,并借鉴心理学文献中“

文章图片
#深度学习#机器学习#计算机视觉 +1
    共 330 条
  • 1
  • 2
  • 3
  • 33
  • 请选择