logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control

SONIC提出了一种基于大规模运动跟踪的通用人形控制框架,通过扩大模型规模和数据量实现自然全身运动。其核心贡献包括:(1) 实时运动规划器连接运动跟踪与任务执行,实现交互式控制;(2) 统一token空间支持VR设备、视频、文本等多模态输入。系统采用密集运动捕捉监督训练PPO策略,通过专用编码器处理不同输入模态并量化为通用token,再由解码器生成动作。实验表明,该系统能实现高精度远程操作和复杂运

#人工智能#机器人#深度学习 +1
SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control

SONIC提出了一种基于大规模运动跟踪的通用人形控制框架,通过扩大模型规模和数据量实现自然全身运动。其核心贡献包括:(1) 实时运动规划器连接运动跟踪与任务执行,实现交互式控制;(2) 统一token空间支持VR设备、视频、文本等多模态输入。系统采用密集运动捕捉监督训练PPO策略,通过专用编码器处理不同输入模态并量化为通用token,再由解码器生成动作。实验表明,该系统能实现高精度远程操作和复杂运

#人工智能#机器人#深度学习 +1
RL Token: Bootstrapping Online RL with Vision-Language-Action Models

本文提出了一种结合视觉-语言-动作模型(VLA)与强化学习的高效在线学习方法。核心创新是引入RL令牌(RLT)作为VLA与强化学习的接口:1)通过自编码器结构压缩VLA输出为紧凑的RL令牌表示;2)基于该表示训练轻量级的行动者-评论家网络;3)使用正则化器将学习策略锚定在VLA建议动作附近。这种方法既保留了VLA的预训练知识,又能通过在线强化学习快速优化策略。实验表明,该方法仅需数小时实际交互即可

#人工智能#深度学习#算法 +2
MEM: Multi-Scale Embodied Memory for Vision Language Action Models

本文提出多尺度具身记忆模型(MEM),通过融合视觉和语言模态实现长视野机器人控制。系统采用双路径架构:1)视频编码器压缩短期视觉记忆,通过改进的ViT结构实现时空注意力高效计算;2)语言记忆机制记录语义事件,支持分钟级任务规划。创新性地将动作预测分解为高级策略(基于语言记忆生成子任务)和低级策略(执行短期动作),在保持预训练模型兼容性的同时,显著扩展了记忆时长和处理能力。该方法有效解决了长视野任务

#人工智能#计算机视觉#算法 +3
π∗0.6: a VLA That Learns From Experience

本文提出RECAP方法,通过优势条件策略实现视觉语言动作模型(VLA)的强化学习训练。该方法整合演示数据、自主收集数据和专家干预,首先通过离线RL预训练通用VLA模型π*0.6,再针对下游任务进行优化。核心创新在于:1)使用多任务价值函数Vπref评估状态价值;2)基于优势函数Aπ生成改进指标It指导策略优化。实验表明,该方法能显著提升任务成功率和执行效率。相比传统方法,RECAP通过价值函数引导

#算法#人工智能#机器学习 +3
π∗0.6: a VLA That Learns From Experience

本文提出RECAP方法,通过优势条件策略实现视觉语言动作模型(VLA)的强化学习训练。该方法整合演示数据、自主收集数据和专家干预,首先通过离线RL预训练通用VLA模型π*0.6,再针对下游任务进行优化。核心创新在于:1)使用多任务价值函数Vπref评估状态价值;2)基于优势函数Aπ生成改进指标It指导策略优化。实验表明,该方法能显著提升任务成功率和执行效率。相比传统方法,RECAP通过价值函数引导

#算法#人工智能#机器学习 +3
Real-Time Execution of Action Chunking Flow Policies

本文提出了一种实时动作分块流策略(RTC),可在不重新训练的情况下适配各类基于扩散或流的视觉语言模型。该方法通过异步执行机制,在执行当前动作块时预生成下一动作块,并采用"冻结-修复"策略确保动作连续性。创新点包括:1)设计了基于Kinetix模拟器的新基准测试12项动态任务;2)引入伪逆引导技术(ΠGDM)实现动作块间的平滑过渡。实验表明RTC能有效降低高延迟场景下的动作突变,

#人工智能#深度学习#算法
Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

本文提出了一种知识隔离的视觉-语言-动作(VLA)模型训练方法,通过分离离散动作表示学习和连续动作生成来解决现有方法训练效率低、知识迁移差的问题。核心创新在于:1)使用离散动作标记微调VLM主干进行表示学习;2)采用流匹配动作专家生成连续动作但不回传梯度;3)支持多模态数据协同训练。实验表明该方法能实现快速训练(离散监督保护VLM知识)、快速推理(小动作专家输出连续动作)和更好泛化(VLM数据增强

#人工智能#机器学习#深度学习 +2
pi0-FAST:FAST: Efficient Action Tokenization for Vision-Language-Action Models

本文提出了一种基于离散余弦变换(DCT)的机器人动作标记化方法FAST,通过频率空间压缩降低动作序列相关性,解决了传统离散化方法在高频灵巧任务中的失效问题。研究进一步开发了通用分词器FAST+,在百万级真实轨迹上训练,可处理不同机器人和控制频率的动作序列。实验表明,该方法使自回归VLA模型训练效率提升5倍,性能媲美扩散模型。技术核心是将DCT系数矩阵按频率优先展平后应用BPE编码,仅需学习词汇表参

#人工智能#计算机视觉#论文阅读 +2
HumDex: Humanoid Dexterous Manipulation Made Easy

HumDex是一种便携式人形机器人远程操作系统,采用基于IMU的运动跟踪技术实现高精度全身控制,仅需15个轻量追踪器。系统创新性地提出基于学习的神经重定向方法,通过小型MLP网络将人类指尖动作实时映射到20自由度机器人手部,无需手动调参即可生成自然动作。该系统还能高效采集人体运动数据,支持两阶段模仿学习框架:先预训练获得通用先验,再微调适应具体执行。实验表明,HumDex能采集更优质的数据,并提升

#机器学习#深度学习#人工智能 +2
    共 18 条
  • 1
  • 2
  • 请选择