logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

再获20亿融资,估值突破200亿!靠VLA和WAM打造通用具身大脑~

同时,沿着真实数据金字塔,星海图领先于行业布局涵盖 UMI 数据与人类第一视角(Egocentric)数据的无本体数据方案布局,构筑起稳固的具身智能数据金字塔。目前,星海图的数据体系已深度赋能英伟达 EgoScale、蚂蚁灵波 Lingbot-VLA等全球顶级具身大模型,成为行业不可或缺的底层基础设施。

文章图片
再获20亿融资,估值突破200亿!靠VLA和WAM打造通用具身大脑~

同时,沿着真实数据金字塔,星海图领先于行业布局涵盖 UMI 数据与人类第一视角(Egocentric)数据的无本体数据方案布局,构筑起稳固的具身智能数据金字塔。目前,星海图的数据体系已深度赋能英伟达 EgoScale、蚂蚁灵波 Lingbot-VLA等全球顶级具身大模型,成为行业不可或缺的底层基础设施。

文章图片
给一张照片,用手比划就能生成抓杯子、开盒子的第一人称视频!Hand2World的破局之路

从 Genie 3 到 LingBot-World,世界模型正成为 AI 领域最热的方向之一。一个自然的问题是:如何让用户用最直觉的方式————来驱动世界模型中的交互?我们提出了:给一张照片,对着空气比划几下,AI 就能生成手伸进场景里抓杯子、翻书、开盒子的逼真第一人称视频,物体也会产生对应的物理响应——还能自回归地一直生成下去,长视频也保持稳定。

文章图片
CVPR‘26 | 1条顶50条!北大董豪团队联合智元提出Real2Edit2Real,提升具身数据效率

Real2Edit2Real致力于绕过复杂的数字孪生与物理仿真,直接接入数采管线,将统一的 3D 控制接口的精确性与可控视频生成模型的真实性相结合,让少量的真机数据也能迸发出规模化的效果,为解决具身智能的数据采集难题提供了一条高效捷径。

文章图片
CVPR‘26 | 1条顶50条!北大董豪团队联合智元提出Real2Edit2Real,提升具身数据效率

Real2Edit2Real致力于绕过复杂的数字孪生与物理仿真,直接接入数采管线,将统一的 3D 控制接口的精确性与可控视频生成模型的真实性相结合,让少量的真机数据也能迸发出规模化的效果,为解决具身智能的数据采集难题提供了一条高效捷径。

文章图片
斯坦福联合 Physical Intelligence推出AirVLA!让桌面机械臂 VLA 模型学会空中抓取与导航

AirVLA 完成了机械臂 VLA→无人机的首次系统性迁移验证,证明"预训练 VLA+物理感知引导+3D 合成数据"是破解无人机欠驱动、强动态、数据稀缺的最优路径。它没有重新造一个飞行模型,而是站在 VLA 基础模型的肩膀上,用最小代价让"地面机械臂技能"飞上天空,为语言指令无人机、高空作业、应急救援抓取等真实应用打开了大门,也为跨具身迁移提供了"保留表征、适配动力学"的标准范式。

文章图片
具身领域的真机评测基准都有哪些?

是指用于评估具身智能系统(如机器人、智能代理等)在真实或模拟物理环境中执行任务的能力、性能和质量的一套标准化测试框架和指标体系。近年来,业内已经基本形成了真机和仿真两套方案,其中真机评测方案因其能够触达真实场景,被业内团队广泛关注。今天为大家盘点一下具身智能领域都有哪些真机评测基准。以下评测基准均已收录至『具身智能之心-开源知识库社区』“具身评测基准”版块的子文档“真机评测基准”部分,更多内容可至

文章图片
具身领域的真机评测基准都有哪些?

是指用于评估具身智能系统(如机器人、智能代理等)在真实或模拟物理环境中执行任务的能力、性能和质量的一套标准化测试框架和指标体系。近年来,业内已经基本形成了真机和仿真两套方案,其中真机评测方案因其能够触达真实场景,被业内团队广泛关注。今天为大家盘点一下具身智能领域都有哪些真机评测基准。以下评测基准均已收录至『具身智能之心-开源知识库社区』“具身评测基准”版块的子文档“真机评测基准”部分,更多内容可至

文章图片
从酒店到客厅,优理奇机器人开始啃家居场景这块最难的骨头

春晚后,具身领域发生了一个很大的转变:开始关注落地和场景了。宇树在春晚舞台把“机器人身体能力天花板”推到了大众面前,智元则慢慢把机器人往明确的 B 端场景里落,Sharpa 在补“手和触觉”这块关键技术,国外的Figure AI 和physcial intelligence也在不断让真实部署成为可能。这一次,也是行业几年的发展和不断摸索积累的成果。再把这些内容结合到一起,可以发现一个很明显的现象:

文章图片
VAM的发力!VAMPO:让视频动作模型真正“看懂未来”,提升机器人操作能力

在机器人智能快速发展的今天,Vision-Language-Action(VLA)系统正逐渐成为通向通用机器人智能的重要路线。而在这条路线中,)因为能够从大规模视频中学习“视觉动态”,成为近年来非常有潜力的一类方法。。现有视频动作模型虽然能生成“看起来合理”的未来,但未必能准确刻画机器人操作真正依赖的细粒度视觉动态。因此,问题的关键不只是“预测未来”,而是要。最近,论文 《》提出了一种新的后训练框

文章图片
    共 237 条
  • 1
  • 2
  • 3
  • 24
  • 请选择