logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

登上Science Robotic!一天学习1000个任务,内燃机的风还是吹到了机器人

MT3 用 “分解 + 检索” 的简洁思路,破解了机器人模仿学习 “数据需求大、泛化能力弱” 的核心痛点,证明了 “无需复杂模型,仅靠经验复用就能实现千任务学习”。对于家庭服务、仓储物流等需要快速适配多种任务的场景,这种 “单演示学习 + 高效扩展” 的方案极具落地价值,为机器人从实验室走向实际应用提供了全新范式。

文章图片
#学习#机器人
3DV 2026最新 | GaussianArt:清华智源通过高斯模型解决机器人操作仿真中关键问题

清华大学智源研究院提出GaussianArt框架,创新性地利用3D高斯模型实现铰链物体的单阶段建模。该方法通过集成部件分割模块与关节式高斯表示,统一处理运动与外观建模,支持多达20个部件的复杂物体。研究构建了包含90个物体的MPArt-90基准数据集,实验表明GaussianArt在运动参数估计(轴向误差降低42%)和几何重建(倒角距离提升35%)方面均优于现有方法。该工作解决了传统两阶段流程的复

文章图片
#机器人
Physical Intelligence团队正式发布π*0.6!VLA+强化学习训练达到实际可用的鲁棒性水平

Physical Intelligence团队发布VLA模型pi0.6,通过RECAP方法实现强化学习驱动的自主改进。该方法整合演示数据、在线收集数据和专家干预数据,利用优势条件机制优化策略。实验显示,$\pi^_{0.6}$在衣物折叠、纸箱组装和咖啡制作等任务中表现优异,任务吞吐量提升2倍以上,失败率降低50%。该模型已实现13小时连续制作咖啡、2小时无中断衣物折叠等实际应用。RECAP通过价值

文章图片
港中文最新!无需微调即可部署VLA模型

本文提出VLA-Pilot方法,用于提升预训练视觉语言动作(VLA)模型在机器人操作任务中的零样本部署性能。该方法通过推理时策略引导,无需微调即可实现:1)利用多模态大语言模型(MLLM)构建具身策略引导思维链(EPSCoT)模块,推断任务对齐的引导目标;2)设计进化扩散算法优化动作候选,结合扩散模型和进化搜索提升任务对齐度;3)引入迭代引导优化机制进行闭环修正。实验表明,VLA-Pilot在六种

文章图片
小米的MiMo-Embodied,到底讲的是什么?整合自驾和具身任务,29项SOTA!

小米推出首个跨领域统一模型MiMo-Embodied,整合自动驾驶与具身智能两大领域,在29项基准测试中取得SOTA性能。该模型基于MiMo-VL架构,通过四阶段训练策略实现能力协同提升,包含通用数据集、具身智能数据集和自动驾驶数据集三大类别。核心组件包括视觉编码器、投影器和大语言模型,支持动态环境中的理解与推理。评测显示,模型在具身智能17项基准和自动驾驶12项基准中均表现优异,消融实验验证了四

文章图片
小米的MiMo-Embodied,到底讲的是什么?整合自驾和具身任务,29项SOTA!

小米推出首个跨领域统一模型MiMo-Embodied,整合自动驾驶与具身智能两大领域,在29项基准测试中取得SOTA性能。该模型基于MiMo-VL架构,通过四阶段训练策略实现能力协同提升,包含通用数据集、具身智能数据集和自动驾驶数据集三大类别。核心组件包括视觉编码器、投影器和大语言模型,支持动态环境中的理解与推理。评测显示,模型在具身智能17项基准和自动驾驶12项基准中均表现优异,消融实验验证了四

文章图片
小米的MiMo-Embodied,到底讲的是什么?整合自驾和具身任务,29项SOTA!

小米推出首个跨领域统一模型MiMo-Embodied,整合自动驾驶与具身智能两大领域,在29项基准测试中取得SOTA性能。该模型基于MiMo-VL架构,通过四阶段训练策略实现能力协同提升,包含通用数据集、具身智能数据集和自动驾驶数据集三大类别。核心组件包括视觉编码器、投影器和大语言模型,支持动态环境中的理解与推理。评测显示,模型在具身智能17项基准和自动驾驶12项基准中均表现优异,消融实验验证了四

文章图片
华科&清华最新DeepThinkVLA:如何让模型 “会思考、能落地”?

机器人操作中“思考先于行动”是解决端到端策略数据依赖的关键,但现有视觉-语言-动作(VLA)模型面临核心矛盾:单一解码器需同时处理序列化推理与高维并行动作,导致控制精度下降与因果关联缺失。华中科技大学与清华大学团队提出DeepThinkVLA,通过混合注意力解码器(自回归推理+并行动作生成)与两阶段训练(监督微调+强化学习),实现推理与动作的高效协同。在LIBERO基准测试中,模型以97.0%成功

文章图片
华科&清华最新DeepThinkVLA:如何让模型 “会思考、能落地”?

机器人操作中“思考先于行动”是解决端到端策略数据依赖的关键,但现有视觉-语言-动作(VLA)模型面临核心矛盾:单一解码器需同时处理序列化推理与高维并行动作,导致控制精度下降与因果关联缺失。华中科技大学与清华大学团队提出DeepThinkVLA,通过混合注意力解码器(自回归推理+并行动作生成)与两阶段训练(监督微调+强化学习),实现推理与动作的高效协同。在LIBERO基准测试中,模型以97.0%成功

文章图片
    共 111 条
  • 1
  • 2
  • 3
  • 12
  • 请选择