logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文自动阅读】WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

本文提出WMPO框架,通过构建像素级视频生成世界模型,让视觉-语言-动作(VLA)模型无需与真实环境交互,就能进行在线强化学习(RL),解决了现有VLA模型依赖模仿学习、真实环境RL样本效率低的问题,还能实现自我修正等新兴行为。

#人工智能#机器学习#机器人
【论文自动阅读】Learning Interactive World Model for Object-Centric Reinforcement Learning

本文提出“因子化交互对象中心世界模型(FIOC-WM)”,通过两级分解(对象级显式交互建模+属性级静动态特征分离)从图像中学习结构化世界模型,并结合分层策略(高层选交互顺序、低层执行动作),提升强化学习在机器人控制等任务中的样本效率和泛化能力。

#论文阅读#人工智能
【论文自动阅读】Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

提出一种名为Real2Edit2Real的框架,通过3D控制界面连接3D可编辑性与2D视觉数据,无需仿真引擎和数字资产,从少量RGB机器人演示中生成多样化、多视图且物理一致的操作演示视频,大幅提升数据效率并解决空间泛化难题。

#3d#人工智能#深度学习 +1
【论文自动阅读】Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic D

本文提出“统一世界模型(UWM)”框架,将视频扩散与动作扩散整合到统一Transformer架构中,通过独立控制两种模态的扩散时间步,实现利用带动作标注的机器人数据和无动作标注的视频数据预训练,最终得到比传统模仿学习更泛化、更鲁棒的机器人操纵策略,同时还能灵活实现前向动力学预测、逆动力学预测和视频生成。

#机器人#人工智能#深度学习
【论文自动阅读】Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic D

本文提出“统一世界模型(UWM)”框架,将视频扩散与动作扩散整合到统一Transformer架构中,通过独立控制两种模态的扩散时间步,实现利用带动作标注的机器人数据和无动作标注的视频数据预训练,最终得到比传统模仿学习更泛化、更鲁棒的机器人操纵策略,同时还能灵活实现前向动力学预测、逆动力学预测和视频生成。

#机器人#人工智能#深度学习
【论文自动阅读】PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelli

本文提出了将人类第一视角视频转化为结构化训练数据的流程,构建了E2E-3M数据集,据此训练出PhysBrain模型,该模型能提升第一视角理解与规划能力,并有效迁移到机器人控制任务中,为视觉语言模型与物理智能搭建桥梁。

#人工智能#深度学习#机器人
【论文自动阅读】PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelli

本文提出了将人类第一视角视频转化为结构化训练数据的流程,构建了E2E-3M数据集,据此训练出PhysBrain模型,该模型能提升第一视角理解与规划能力,并有效迁移到机器人控制任务中,为视觉语言模型与物理智能搭建桥梁。

#人工智能#深度学习#机器人
【论文自动阅读】Large Video Planner Enables Generalizable Robot Control

研究者提出“大型视频规划器(LVP)”,通过大规模人类活动与机器人演示视频预训练,让模型能根据任务指令和初始场景生成零样本视频计划,再提取视频中的动作并适配到真实机器人(如灵巧手、平行夹爪),实现跨未知任务和环境的机器人控制泛化。

#论文阅读#人工智能#深度学习
【论文自动阅读】MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation

研究者提出名为MiVLA的视觉-语言-动作(VLA)模型,通过“人机相互模仿预训练”机制,融合易获取的模拟机器人数据(提供机器人操作先验)和人类日常视频数据(提供真实场景行为知识),解决真实机器人数据稀缺的问题,最终提升模型在模拟和真实机器人平台上的泛化能力。

#人工智能#深度学习#机器学习
【论文自动阅读】Motus: A Unified Latent Action World Model

本文提出Motus这一统一潜在动作世界模型,通过混合Transformer架构整合多种专家模型,借助光流学习潜在动作,结合三阶段训练流程和六层数据金字塔,实现多模态生成能力的统一,在模拟和真实场景的机器人任务中提升性能。

#机器人#人工智能
    共 39 条
  • 1
  • 2
  • 3
  • 4
  • 请选择