logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

VLA论文精读(十四)PointVLA: Injecting the 3D World into Vision-Language-Action Models

这篇文章最大的创新点在于将3D点云信息作为补充条件送入模型,而不是DP3一样只用纯3D数据从头训练模型,按照作者的说法这样可以在保留模型原有2D解释能力的同时添加了其3D能力,并且可以有效识别真实物体与2D照片,作者设置的各种任务中都超越了baseline模型。

文章图片
#学习#论文阅读
VLA论文精读(十)DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping

是一篇关于灵巧手抓取的VLA模型,并创建了一个开源数据集,尽管如此我还是觉得这篇论文内容不够丰满,特别是在模型对比上只和自己进行了消融实验,但文章中的实验却说明了其具备极强的泛化能力。

文章图片
#学习#论文阅读
VLA 论文精读(七)Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Mani

作者介绍了一个带有触觉信息的TactAR数据采集框架,并创造了一个RDP的快-慢策略网路,快网络用触觉信息实现闭环动作,慢网络用视觉信息提供开环轨迹。

文章图片
#学习#论文阅读
VLA 论文精读(三十六)VLA-0: Building State-of-the-Art VLAs with Zero Modification

这篇论文是 Nvidia 发表的一篇 VLA 领域的论文,提出了一个名为 VLA-0 架构,该架构采用了一种极其简单但被忽视的策略:将动作直接表示为文本 。它不需要对底层的 VLM 进行任何修改,将机器人的连续动作转换为数值字符串,然后像生成普通文本一样,训练 VLM 直接输出这些动作字符串。但想要实现这一效果还需要 Masked Action Augmentation、Ensemble Pred

文章图片
#人工智能
VLA 论文精读(八)Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

这篇文章是对作者先前工作OpenVAL的一个扩展,旨在使用更好的微调方式以提高模型的控制输出频率,在这期间作者发现这种微调方式甚至能让模型获得更强大的泛化,包括双臂操作、多视角输入等。

文章图片
#论文阅读#学习
VLA 论文精读(二十一)RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

这篇论文是2025年发表在arxiv上的一篇VLA领域论文,RDT也是做具身的一个必须了解的模型,和OpenVLA、$\pi0$ 这两个模型一样是基本功。

文章图片
#人工智能#论文阅读#学习 +1
VLA 论文精读(三十四)Pure Vision Language Action (VLA) Models: A Comprehensive Survey

这篇文章是新出的一片 VLA 领域的综述,对现有 VLA 模型进行了分类并分析了整个 VLA 领域存在的局限性,同时给出了一些发展方向的预测。

文章图片
#人工智能#论文阅读#机器人
VLA 论文精读(三十三)A Survey on Vision-Language-Action Models: An Action Tokenization Perspective

这篇论文是一篇比较新的(2025年07月02日发表) VLA 领域综述,原文一共 70 页内容,主要是从 Action Tokenization 角度出发进行了一次全面的总结,可以直接将其当作一个字典,其中的表格整理的非常清晰直观。

文章图片
#学习#论文阅读#机器人 +1
WorldModel 论文精读(一)A Survey: Learning Embodied Intelligence from Physical Simulators and World Models

这篇论文是具身智能领域中一个有关世界模型的综述,因为出的时间比较新(2025年07月01日),所以总体而言是相当全面的,特别是其原图 2、3 直接对比了仿真器支持的功能和渲染能力,图 4 对比了仿真器对关节的支持性等。此外,在方法和效果上也是言简意赅,可以当作一个速查手册。

文章图片
#语言模型#人工智能#自然语言处理 +2
VLA 论文精读(三十一)SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics

这篇论文是 Hugging Face 出品的一个 VLA 领域论文,其核心在于提出了一个能在消费级 GPU(文章中只说用了4块,以及 30K小时的GPU时,但没有提用的是哪款GPU)上训练的模型、一个异步推理机制、一台低成本机械臂上达到了和 Pi0 同等的效果。虽然作者在简单任务上验证了他们的模型,但在复杂任务上的实验并没有展开,我貌似也没有看见双臂的实验,因此后续的人可以从这里入手使用他们的方式

文章图片
#人工智能#机器人#深度学习 +1
    共 124 条
  • 1
  • 2
  • 3
  • 13
  • 请选择