
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
同年另一篇工作⁵(arXiv:2403.00504)进一步拓展JEPA的预测任务,提出“图像世界模型(IWM)”,将预测范围从“掩码块”扩展到“全局 photometric变换”,实现了表征抽象度的可控性——既可学习对比式的不变表征,也可学习掩码建模的等变表征,极大提升了JEPA的泛化能力。未来,随着JEPA在小样本学习、低资源模态、实时性优化上的持续突破,它有望成为连接大模型与真实世界的“通用表

同年另一篇工作⁵(arXiv:2403.00504)进一步拓展JEPA的预测任务,提出“图像世界模型(IWM)”,将预测范围从“掩码块”扩展到“全局 photometric变换”,实现了表征抽象度的可控性——既可学习对比式的不变表征,也可学习掩码建模的等变表征,极大提升了JEPA的泛化能力。未来,随着JEPA在小样本学习、低资源模态、实时性优化上的持续突破,它有望成为连接大模型与真实世界的“通用表

PointWorld直接用机器人3D表面点流:根据URDF模型(机器人几何描述),通过正运动学生成 gripper(夹具)的点轨迹——不管是平行夹爪还是多指手,只要几何已知,动作就能统一表示,从根源解决“形态依赖”。用sigmoid函数给运动点(是真实位移)更高权重,再结合Huber损失和不确定性正则,让模型聚焦于“机器人接触引发的物体运动”,训练效率直接拉满。一个预训练3D世界模型,将环境状态与

当精心训练的机器人在实验室里表现完美,却一到真实环境就"水土不服"——传感器抖动、光线变化、执行偏差,各种意外让它瞬间"失灵"。这不是bug,这是VLA模型在真实世界部署时面临的核心挑战。来自西湖大学的研究团队提出了RobustVLA,一种专门增强视觉-语言-动作模型鲁棒性的在线强化学习后训练方法。他们不是简单地让模型"更强",而是让它在面对环境扰动时"更稳"。▲图1RobustVLA方法框架VL

DiffusionDrive 针对扩散模型在端到端自动驾驶规划中“多样性生成”与“实时推理”的根本矛盾,提出了高效的解决方案:通过引入多模态驾驶锚点作为结构化先验,并结合截断扩散日程,将模型从传统的多步去噪简化为仅需 2-4 步 的快速生成,在保持动作分布多样性与合理性的同时,实现了45 FPS的实时性能(基于4090)。该模型仅依赖视觉输入,通过共享表征学习,使同一个网络既能完成闭环驾驶,又能进

往往胜过复杂的机电堆砌。通过将仿生双稳态结构与磁吸原理深度融合,这一仅重 13.5g 的被动机构以“零能耗”的代价换取了 7.29 倍的作业续航,在抗风 60km/h 的严苛条件下完美攻克了微型无人机的驻留难题。这种遵循极简主义的设计哲学,不仅为微型无人机的野外环境监测提供了极具性价比的解决方案,也为广大处于科研起步阶段的本科生/研究生提供了一个极佳的范本——这一反常识的高效产出,有力地证明了:好

▲图6|压缩率与记忆长度的折中:压太狠会掉精度,压得适中更划算。在 GOAT-Bench 的未见场景子集上,对比不同 token 压缩率与不同存储图像数量下的导航准确性,展示“更长记忆”通常有益,但“过度压缩”会让关键线索丢失,从而影响表现。,针对这一现实痛点:让机器人在“终身导航”设置下,不用改下游模型,即插即用,在陌生环境探索成功率提升 15%,熟悉环境路径效率翻倍。更重要的是,这种“上下文压

这项Cell工作不仅仅是一次农业自动化的突破,更是具身智能的一次“生态重构”。它打破了“智能只存在于机器人”的传统思维,将生物体与机器体纳入同一系统设计范式。当机器人能在自然生态中与生命互动、共生——那才是具身智能的真正边界。或许未来,我们不只在让机器人更聪明,也在让世界更可理解。当机器人学会“理解花”,也许距离“理解世界”,就不再遥远。

这项Cell工作不仅仅是一次农业自动化的突破,更是具身智能的一次“生态重构”。它打破了“智能只存在于机器人”的传统思维,将生物体与机器体纳入同一系统设计范式。当机器人能在自然生态中与生命互动、共生——那才是具身智能的真正边界。或许未来,我们不只在让机器人更聪明,也在让世界更可理解。当机器人学会“理解花”,也许距离“理解世界”,就不再遥远。

针对传统栅格地图易丢失细小障碍物信息的问题,团队提出了一种基于机载3D激光雷达感知与Sim-to-Real强化学习的端到端无人机自主飞行框架,设计了一种任务相关的稀疏感知表征,在大幅压缩数据量的同时保留了对电线等微小目标的敏锐捕捉能力。(BM-MCTS)算法,能在复杂的未知环境中,根据实时的能量与时间,动态规划出最优的“飞行-地面”切换策略。实测显示,该系统能在有限的机载算力下实现10Hz的实时重








