
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文提出PhysWorld框架,通过物理世界建模实现机器人从视频生成中学习。该框架结合视频生成与物理重建:给定单幅图像和任务指令,首先生成任务条件化视频,随后重建其背后的物理世界模型。通过以物体为中心的残差强化学习,将生成视频中的运动转化为符合物理规律的精确动作。这种方法无需真实机器人数据采集,实现零样本可泛化的机器人操控。实验表明,PhysWorld在多种真实任务中显著提升操控精度,优于现有方法

本文提出PhysiAgent框架,创新性地将视觉-语言模型(VLM)与视觉-语言-动作模型(VLA)集成应用于物理世界。不同于传统僵化的串行结构,PhysiAgent通过监控、记忆和反思机制构建自适应"脚手架",使VLM能动态调节各组件协作。实验表明,该框架在真实机器人任务中显著提升性能,展现出自我调节和自适应演化能力。PhysiAgent为具身智能体实现物理世界落地提供了务实

运行官方代码库中提供的Colab代码:vision-based environment(二)(4)

挑战与差距 现有方法在推动机器人操作基准化方面取得了显著进展,但仍面临三个关键挑战(如图2所示): 现实性缺失:基于仿真的基准虽能实现大规模评测,但受限于物理引擎的准确性,难以完全反映真实世界的复杂性。接触动力学、摩擦力和材料变形等物理现象的模拟不完美,导致仿真结果与真实操作存在差距。 可访问性不足:现实世界竞赛和集中式评测设施虽然提供真实环境,但受限于地理位置和硬件资源,难以广泛覆盖全球研究社区

本文提出高斯世界模型(GWM),一种用于机器人操作的新型三维世界模型。GWM结合三维高斯点绘(3D-GS)与扩散Transformer,通过动作条件预测实现精细场景重建。其核心创新包括:1)三维高斯变分自编码器压缩表示,实现高效潜在空间建模;2)支持模仿学习的视觉表征增强;3)作为神经模拟器用于基于模型的强化学习。实验表明,GWM在31个机器人任务中显著优于现有方法(最高提升16.25%),并在现

pytorch小记(十四):pytorch中 nn.Embedding 详解
本文提出ViTa-Zero,一种零样本的视触觉物体6D位姿估计框架,通过融合视觉与触觉信息提升机器人操控任务中的位姿估计精度。该框架以视觉模型为骨干,利用触觉与本体感知数据构建物理约束进行测试时优化,克服纯视觉方法在遮挡和动态场景下的局限性。实验表明,ViTa-Zero显著优于基础视觉模型,在ADD-S AUC指标上平均提升55%,位置误差降低80%,适用于多种操作场景如抓取和物体交接。该方法的创

强化学习(RL)在赋予机器人自主获取复杂操作技能方面具有巨大潜力,但在真实世界环境中实现这一潜力仍然充满挑战。我们提出了一种基于视觉的、引入人类反馈的强化学习系统,该系统在一系列灵巧操作任务上展现出了卓越的性能,包括动态操作、精密装配和双臂协调。我们的方法结合了示范学习和人类修正、高效的强化学习算法以及其他系统级设计选择,从而能够在仅1至2.5小时的训练时间内学习出近乎完美的成功率和快速的循环时间

本文提出了一种新型的“高斯-粒子”双重表示方法,用于机器人对物理世界的建模与交互。该方法结合了基于粒子的物理仿真与三维高斯泼溅渲染技术,通过视觉观测实时修正预测状态,实现了几何、物理与视觉的统一表征。实验验证表明,该系统在二维/三维目标跟踪和光度重建任务中表现良好,并展示了物理先验对提升状态预测准确性的关键作用。相关代码和视频已开源,为机器人感知与决策提供了新的解决方案。

摘要: 本文提出了一种新颖的双重 Gaussian-Particle 表示方法,用于机器人对物理世界的建模。该方法结合了基于粒子的物理仿真(PBD)和三维高斯泼溅(3DGS),实现了对几何结构、物理规律和视觉外观的统一建模。通过粒子刻画物体的物理属性,并通过附着的高斯模型渲染视觉状态,系统能够预测未来场景的物理演化(仿真)和视觉表现(渲染)。利用真实观测与渲染图像的差异,生成**“视觉力”**信号








