logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文阅读】RoboAgent: 通过语义增强和动作分块实现机器人操作的泛化与效率

只用了很少的真机训练数据(7.5k条),通过“P图”扩充数据和“预测动作片段”而非单步动作,训练出了一个能听懂人话、在没见过的厨房场景里也能完成多种复杂任务的通用机器人。

#论文阅读#机器人
【论文阅读】RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

本文提出了一种名为 RoboFactory 的框架和基准测试,利用大模型生成“逻辑、空间、时间”三重限制条件,来自动化地生成高质量的多机器人协作训练数据,并探索了如何训练多机器人模仿学习模型。

文章图片
#论文阅读#人工智能
【论文阅读】StarVLA-α: Reducing Complexity in Vision-Language-Action Systems

用一个强VLM backbone(Qwen3-VL) + 轻量MLP action head + 最小化数据处理,构建了一个简洁但强性能的VLA基线,系统验证了"很多复杂设计其实没必要"。

文章图片
#论文阅读#人工智能
【论文阅读】Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

本文提出了一种叫“扩散强制(Diffusion Forcing)”的新方法,让模型既能像GPT一样自由地生成长短不一的序列(如视频、动作),又能像全序列扩散模型一样进行全局规划和纠错,解决了长序列生成容易“崩”掉的问题。

文章图片
#论文阅读#人工智能
【论文自动阅读】GREAT MARCH 100:100项细节导向任务用于评估具身AI agent

本文提出了一个名为“Great March 100 (GM-100)”的机器人学习评测基准,包含100个精心设计的、涵盖长尾行为的任务,旨在解决现有评测任务过于单一、无法全面评估机器人智能水平的问题。

#人工智能
【论文阅读】EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI

本文发布了一个名为 EmbodiedScan 的超大规模室内3D场景数据集,并基于此提出了一个名为 Embodied Perceptron 的基准模型,旨在解决具身智能体在第一人称视角下对3D环境进行全方位感知和理解的问题。

文章图片
#论文阅读#3d#人工智能
【论文阅读】EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI

本文发布了一个名为 EmbodiedScan 的超大规模室内3D场景数据集,并基于此提出了一个名为 Embodied Perceptron 的基准模型,旨在解决具身智能体在第一人称视角下对3D环境进行全方位感知和理解的问题。

文章图片
#论文阅读#3d#人工智能
【论文阅读】WorldArena 2.0:扩展具身世界模型在模态性、功能性与平台上的基准测试

通过把评测标准从“光看视频像不像”升级到“多模态感知+真动手干活+现实世界测试”,逼出真正能用的具身世界模型。

#论文阅读#人工智能
【论文阅读】D4RT: Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

本文提出了一种名为D4RT的高效前馈模型,通过统一的Transformer架构,仅需一次处理就能从视频中重建出包含几何和运动信息的动态4D场景。

#人工智能#深度学习#算法 +1
【论文阅读】Learning while Deploying: Fleet-Scale Offline-to-Online Reinforcement Learning for Generalist

通过让机器人大军在实际干活时边干边学(Online RL),用分布式的强化学习算法,把预训练好的通用机器人模型(VLA)从“理论派”变成“实战派”,解决了离线数据无法覆盖真实世界复杂情况的痛点。

文章图片
#论文阅读#人工智能
    共 152 条
  • 1
  • 2
  • 3
  • 16
  • 请选择