
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
25年10月来自清华和微软亚洲研究院的论文“Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos”。本文提出一种方法利用大量真实生活中人类手部活动的非脚本视频素材预训练机器人操作视觉-语言-动作(VLA)模型。其将人手视为灵巧的机

25年10月来自清华和微软亚洲研究院的论文“Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos”。本文提出一种方法利用大量真实生活中人类手部活动的非脚本视频素材预训练机器人操作视觉-语言-动作(VLA)模型。其将人手视为灵巧的机

25年12月来自香港科大(广州)、中关村学院、中关村AI研究所、北京机智赛博智能科技有限公司(DeepCybo)、哈工大和华中科大的论文“PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence”。机器人泛化依赖于物理智能:即在以自我为中心的感知和行动框架下,推

25年12月来自香港科大(广州)、中关村学院、中关村AI研究所、北京机智赛博智能科技有限公司(DeepCybo)、哈工大和华中科大的论文“PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence”。机器人泛化依赖于物理智能:即在以自我为中心的感知和行动框架下,推

24年12月来自清华大学、UC Berkeley、上海AI实验室、上海姚期智研究院和北京星动纪元公司的论文“Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations”。机器人技术的最新进展,集中于开发能够执行多项任务的通用策略。通常,这些策略利用预训练的视觉编码器从当前观察中捕

24年12月来自清华大学、UC Berkeley、上海AI实验室、上海姚期智研究院和北京星动纪元公司的论文“Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations”。机器人技术的最新进展,集中于开发能够执行多项任务的通用策略。通常,这些策略利用预训练的视觉编码器从当前观察中捕

25年4月来自北大、英国ICL和微软北京研究院的论文“TileLang: A Composable Tiled Programming Model for AI Systems”。现代AI工作负载高度依赖于经过优化的计算内核进行训练和推理。这些AI内核遵循明确的数据流模式,例如在DRAM和SRAM之间移动数据块,并对这些数据块执行一系列计算。然而,尽管这些模式清晰明了,编写高性能内核仍然十分复杂。

25年12月来自DeepSeek-AI的论文“mHC: Manifold-Constrained Hyper-Connections”。近年来,以超连接(Hyper-Connections,HC)为代表的研究,扩展过去十年建立的普遍存在的残差连接范式,通过增加残差流的宽度和多样化连接模式,取得了显著的性能提升。然而,这种多样化从根本上破坏残差连接固有的恒等映射特性,导致训练不稳定和可扩展性受限,并

25年12月来自清华、香港中文大学、Voyager Research和滴滴出行的论文“ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving”。自动驾驶需要从复杂的多模态输入中生成安全可靠的轨迹。传统的模块化流程将感知、预测和

25年12月来自上海科技大学、清华、同济、上海交大、旷视科技和迈驰智行的论文“OmniDrive-R1: Reinforcement-driven Interleaved Multi-modal Chain-of-Thought for Trustworthy Vision-Language Autonomous Driving”。在自动驾驶(AD)等安全关键领域部署视觉-语言模型(VLM)面临着








