logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文阅读】TIDAL:高频VLA控制的时序交错扩散与动作循环

本文提出了一种名为TIDAL的分层框架,通过将“语义思考”和“高频动作”解耦,让笨重的AI大脑也能指挥机器人做出敏捷的反应,从而在不降低智能水平的前提下实现高频控制。

#论文阅读#人工智能
【论文阅读】TIDAL:高频VLA控制的时序交错扩散与动作循环

本文提出了一种名为TIDAL的分层框架,通过将“语义思考”和“高频动作”解耦,让笨重的AI大脑也能指挥机器人做出敏捷的反应,从而在不降低智能水平的前提下实现高频控制。

#论文阅读#人工智能
【论文阅读】SILENTDRIFT利用action chunking对VLA进行隐蔽后门攻击

本文提出了一种名为SILENTDRIFT的隐蔽后门攻击方法,利用视觉-语言-动作(VLA)模型在动作分块和相对位姿表示上的设计缺陷,通过平滑的微小扰动积累导致机器人执行失败,且难以被检测。

#论文阅读
【论文阅读】Being-H0.5:规模化以人为中心的机器人学习以实现跨具身化泛化

本文提出了一种名为 Being-H0.5 的机器人模型,通过将人类动作作为通用模板,让不同形态的机器人(如机械臂、人形机器人)能共享学习成果,从而实现跨形态的技能泛化和实际部署。

#论文阅读#机器人#学习
【论文自动阅读】未来光流预测提升机器人控制与视频生成

本文提出了一种名为FOFPred的模型,通过语言指令预测未来的光流(像素运动),从而帮助机器人更好地控制动作和生成视频。

#机器人#人工智能
【论文自动阅读】ReWorld:具身世界模型的多维度奖励建模

本文提出了一种名为ReWorld的框架,利用分层奖励模型和强化学习,解决了视频生成模型在物理真实性、动作合理性和任务逻辑上与视觉效果脱节的问题。

#人工智能#视频生成
【论文自动阅读】X-Distill:跨架构视觉蒸馏在Visuomotor Learning中的应用

本文提出了一种名为X-Distill的方法,通过知识蒸馏将强大的视觉Transformer模型(ViT)的知识迁移到轻量级的卷积神经网络(CNN)中,从而在数据量很少的情况下,让机器人学会根据视觉信息进行操作。

#人工智能
【论文自动阅读】技能感知扩散技术实现可泛化的机器人操作

本文提出了一种名为SADiff的技能感知扩散模型,通过显式地引入“技能”级别的信息(如倒水、抓取)来指导机器人生成动作,从而让机器人能举一反三,灵活应对没见过的物体和环境。

#机器人#人工智能
【论文自动阅读】GREAT MARCH 100:100项细节导向任务用于评估具身AI agent

本文提出了一个名为“Great March 100 (GM-100)”的机器人学习评测基准,包含100个精心设计的、涵盖长尾行为的任务,旨在解决现有评测任务过于单一、无法全面评估机器人智能水平的问题。

#人工智能
【论文自动阅读】GREAT MARCH 100:100项细节导向任务用于评估具身AI agent

本文提出了一个名为“Great March 100 (GM-100)”的机器人学习评测基准,包含100个精心设计的、涵盖长尾行为的任务,旨在解决现有评测任务过于单一、无法全面评估机器人智能水平的问题。

#人工智能
    共 96 条
  • 1
  • 2
  • 3
  • 10
  • 请选择