logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

加州大学团队推出了效率、成功率最优越的策略!4层网络,成功复现了复杂双臂操作

VITA由加州大学戴维斯、加州大学伯克利的研究人员提出,是目前效率、成功率最为优越的流匹配策略之一。最为震撼的是,VITA只使用4层简单MLP网络,便在实机试验当中成功实现了ALOHA复杂双臂操作。VITA的核心设计极为优雅。与传统流/扩散策略从高斯分布开始采样不同,VITA策略以图像分布作为流策略的源,直接流入机器人的动作分布。VITA生成过程无噪声,且不依赖交叉注意力等视觉条件网络,从而简化模

文章图片
加州大学团队推出了效率、成功率最优越的策略!4层网络,成功复现了复杂双臂操作

VITA由加州大学戴维斯、加州大学伯克利的研究人员提出,是目前效率、成功率最为优越的流匹配策略之一。最为震撼的是,VITA只使用4层简单MLP网络,便在实机试验当中成功实现了ALOHA复杂双臂操作。VITA的核心设计极为优雅。与传统流/扩散策略从高斯分布开始采样不同,VITA策略以图像分布作为流策略的源,直接流入机器人的动作分布。VITA生成过程无噪声,且不依赖交叉注意力等视觉条件网络,从而简化模

文章图片
ICLR 2026|QVLA:仅需30%显存,精度几乎无损!开始加速你的所有VLA吧~

QVLA 是 VLA 模型低比特量化的第一次系统性尝试。它证明了在具身智能领域,“以动作为中心”才是模型压缩的正确打开方式。这项工作不仅为在资源受限的机器人硬件上部署大模型铺平了道路,也将加速具身智能从实验室走向现实世界的进程。另外,本文提出的量化技术可以与pruning,diffusion cache等技术无缝接入,系统性的提升模型inference速度。

文章图片
ICLR 2026|QVLA:仅需30%显存,精度几乎无损!开始加速你的所有VLA吧~

QVLA 是 VLA 模型低比特量化的第一次系统性尝试。它证明了在具身智能领域,“以动作为中心”才是模型压缩的正确打开方式。这项工作不仅为在资源受限的机器人硬件上部署大模型铺平了道路,也将加速具身智能从实验室走向现实世界的进程。另外,本文提出的量化技术可以与pruning,diffusion cache等技术无缝接入,系统性的提升模型inference速度。

文章图片
ICLR 2026|QVLA:仅需30%显存,精度几乎无损!开始加速你的所有VLA吧~

QVLA 是 VLA 模型低比特量化的第一次系统性尝试。它证明了在具身智能领域,“以动作为中心”才是模型压缩的正确打开方式。这项工作不仅为在资源受限的机器人硬件上部署大模型铺平了道路,也将加速具身智能从实验室走向现实世界的进程。另外,本文提出的量化技术可以与pruning,diffusion cache等技术无缝接入,系统性的提升模型inference速度。

文章图片
领域首篇RL+VLA 综述:强化学习如何推动 VLA 走向真实世界?

RL-VLA综述:强化学习推动视觉语言动作模型走向真实世界 Vision-Language-Action(VLA)模型虽具备零样本和跨任务泛化能力,但在真实开放场景中仍面临失败恢复和闭环纠错等挑战。本文综述了强化学习(RL)如何作为关键桥梁连接VLA预训练与真实部署,从架构设计、训练范式、真机部署和评估四个维度构建了完整技术图景。重点分析了RL-VLA的闭环优化能力、多样化奖励设计、世界模型构建,

文章图片
思维链推理速度提升 90%+!LaRA-VLA:告别“慢吞吞”的推理

目前的 CoT VLA 主要分为两条路径:文本 CoT: 通过自然语言显式表达中间推理过程,涵盖任务拆解与高层规划,也可能把视觉信息转述为文字。但推理依赖长序列文本生成,推理阶段计算开销较大。视觉 CoT:通过显式的视觉预测来表达推理,例如生成未来观测或中间视觉状态。通常依赖 VQ 等机制将连续视觉表征离散化为视觉 token,因而不可避免地引入表示鸿沟。这种“显式推理”的本质是牺牲速度换精度。但

文章图片
思维链推理速度提升 90%+!LaRA-VLA:告别“慢吞吞”的推理

目前的 CoT VLA 主要分为两条路径:文本 CoT: 通过自然语言显式表达中间推理过程,涵盖任务拆解与高层规划,也可能把视觉信息转述为文字。但推理依赖长序列文本生成,推理阶段计算开销较大。视觉 CoT:通过显式的视觉预测来表达推理,例如生成未来观测或中间视觉状态。通常依赖 VQ 等机制将连续视觉表征离散化为视觉 token,因而不可避免地引入表示鸿沟。这种“显式推理”的本质是牺牲速度换精度。但

文章图片
0.4B 参数 + 实时闭环控制!DynamicVLA :跨实体平台的通用动态物体操控统一框架来啦

DynamicVLA 的推出,不仅突破了传统 VLA 模型的动态操纵瓶颈,更验证了 “轻量化架构 + 实时闭环控制 + 大规模动态数据” 的技术路径有效性。该模型在仿真与真实世界场景中均展现出卓越的动态物体操纵能力,为工业分拣、家庭服务、医疗辅助等需要与动态物体交互的真实应用场景提供了关键技术支撑,开启了 VLA 模型实用化的新篇章。

文章图片
Demo有多丝滑,真实世界操作就有多“翻车”?是时候上RoboChallenge测一测真实战力了

Table30 数据集的任务难度分层,清晰勾勒出当前具身智能从 “基础达标” 到 “复杂攻坚” 的技术演进路径。基础抓取、简单定位类任务已形成成熟解决方案,但多步骤协同、柔性物体操作、长程时序记忆等复杂场景,仍是制约模型迈向通用化的核心瓶颈。这些难度梯度不仅为开发者提供了明确的技术优化方向,也印证了 RoboChallenge 评测体系的全面性与挑战性——通过真实场景下的分层测试,既客观呈现了行业

文章图片
    共 171 条
  • 1
  • 2
  • 3
  • 18
  • 请选择