logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

真实人类活动视频进行机器人操作中可扩展的视觉-语言-动作模型预训练

25年10月来自清华和微软亚洲研究院的论文“Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos”。本文提出一种方法利用大量真实生活中人类手部活动的非脚本视频素材预训练机器人操作视觉-语言-动作(VLA)模型。其将人手视为灵巧的机

文章图片
#音视频#机器人#机器学习 +3
真实人类活动视频进行机器人操作中可扩展的视觉-语言-动作模型预训练

25年10月来自清华和微软亚洲研究院的论文“Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos”。本文提出一种方法利用大量真实生活中人类手部活动的非脚本视频素材预训练机器人操作视觉-语言-动作(VLA)模型。其将人手视为灵巧的机

文章图片
#音视频#机器人#机器学习 +3
PhysBrain:以人类自我中心数据为桥梁,连接视觉-语言模型和物理智能

25年12月来自香港科大(广州)、中关村学院、中关村AI研究所、北京机智赛博智能科技有限公司(DeepCybo)、哈工大和华中科大的论文“PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence”。机器人泛化依赖于物理智能:即在以自我为中心的感知和行动框架下,推

文章图片
#语言模型#人工智能#自然语言处理 +2
PhysBrain:以人类自我中心数据为桥梁,连接视觉-语言模型和物理智能

25年12月来自香港科大(广州)、中关村学院、中关村AI研究所、北京机智赛博智能科技有限公司(DeepCybo)、哈工大和华中科大的论文“PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence”。机器人泛化依赖于物理智能:即在以自我为中心的感知和行动框架下,推

文章图片
#语言模型#人工智能#自然语言处理 +2
视频预测策略(VPP):一个预测视觉表征的通才机器人策略

24年12月来自清华大学、UC Berkeley、上海AI实验室、上海姚期智研究院和北京星动纪元公司的论文“Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations”。机器人技术的最新进展,集中于开发能够执行多项任务的通用策略。通常,这些策略利用预训练的视觉编码器从当前观察中捕

文章图片
#音视频#机器人#人工智能 +2
视频预测策略(VPP):一个预测视觉表征的通才机器人策略

24年12月来自清华大学、UC Berkeley、上海AI实验室、上海姚期智研究院和北京星动纪元公司的论文“Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations”。机器人技术的最新进展,集中于开发能够执行多项任务的通用策略。通常,这些策略利用预训练的视觉编码器从当前观察中捕

文章图片
#音视频#机器人#人工智能 +2
TileLang:一种用于AI 系统的可组合分块编程模型

25年4月来自北大、英国ICL和微软北京研究院的论文“TileLang: A Composable Tiled Programming Model for AI Systems”。现代AI工作负载高度依赖于经过优化的计算内核进行训练和推理。这些AI内核遵循明确的数据流模式,例如在DRAM和SRAM之间移动数据块,并对这些数据块执行一系列计算。然而,尽管这些模式清晰明了,编写高性能内核仍然十分复杂。

文章图片
#人工智能#深度学习#机器学习
mHC:流形约束的超连接

25年12月来自DeepSeek-AI的论文“mHC: Manifold-Constrained Hyper-Connections”。近年来,以超连接(Hyper-Connections,HC)为代表的研究,扩展过去十年建立的普遍存在的残差连接范式,通过增加残差流的宽度和多样化连接模式,取得了显著的性能提升。然而,这种多样化从根本上破坏残差连接固有的恒等映射特性,导致训练不稳定和可扩展性受限,并

文章图片
#人工智能#深度学习#机器学习 +1
ColaVLA:利用认知潜推理实现自动驾驶中的分层并行轨迹规划

25年12月来自清华、香港中文大学、Voyager Research和滴滴出行的论文“ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving”。自动驾驶需要从复杂的多模态输入中生成安全可靠的轨迹。传统的模块化流程将感知、预测和

文章图片
#自动驾驶#人工智能#机器学习 +3
OmniDrive-R1:基于强化学习的交错多模态思维链构建可信赖的视觉-语言自动驾驶系统

25年12月来自上海科技大学、清华、同济、上海交大、旷视科技和迈驰智行的论文“OmniDrive-R1: Reinforcement-driven Interleaved Multi-modal Chain-of-Thought for Trustworthy Vision-Language Autonomous Driving”。在自动驾驶(AD)等安全关键领域部署视觉-语言模型(VLM)面临着

文章图片
#自动驾驶#人工智能#机器学习 +2
    共 667 条
  • 1
  • 2
  • 3
  • 67
  • 请选择