logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文自动阅读】LACY: A Vision-Language Model-based Language-Action Cycle for Self-Improving Robotic Manipul

本文研发了一个叫“LACY”的机器人操控框架,解决了传统机器人模型“只会按语言指令做动作,不会解释动作”的问题。传统模型多是单向“语言→动作”(L2A),泛化性差且依赖大量人工标注数据;而LACY基于视觉-语言模型(LLaVA-NeXT),能同时实现“语言→动作”(按指令做动作)、“动作→语言”(用语言解释已做的动作),还能验证“原始指令和动作解释是否一致”(L2C)。

#语言模型#人工智能#机器学习
【论文自动阅读】VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coher

为解决现有视觉-语言-动作(VLA)模型在机器人操作中“空间不顺畅、时间不连贯”的问题,作者提出了VLA-4D模型。该模型通过将3D空间信息与1D时间信息融合成“4D感知”,一方面优化视觉表示(让模型更精准理解场景的时空变化),另一方面扩展动作表示(给传统空间动作参数增加时间控制,比如每个动作该执行多久);同时还扩展了机器人数据集,增加时间维度的标注用于模型微调,最终让机器人能完成更精细、时空更连

#人工智能#论文阅读#算法
【论文自动阅读】Mixture of Horizons in Action Chunking

作者发现视觉-语言-动作(VLA)模型在机器人操控时,训练用的“动作块长度”(即horizon,指一次预测的未来动作时间跨度)存在固有矛盾:长跨度能帮模型做全局规划,却会降低精细操作精度;短跨度能提升局部控制准确性,却难以处理长流程任务。为解决这一问题,他们提出“混合跨度策略(MoH)”——把动作块拆成不同跨度的片段,用共享的动作Transformer并行处理,再通过轻量线性门融合各片段结果;还设

#人工智能#论文阅读
【论文自动阅读】dVLA: DIFFUSION VISION-LANGUAGE-ACTION MODEL WITH MULTIMODAL CHAIN-OF-THOUGHT

研究团队提出了名为dVLA的模型,它是一种基于扩散模型的视觉-语言-动作(VLA)系统。简单来说,就是让机器人能像人一样“看环境、懂指令、做动作”:通过统一的训练目标,把视觉感知(看图像)、语言推理(理解文字指令)和机器人控制(生成动作)整合到一起,还加入了“多模态思维链”——让机器人在行动前先生成子目标图像(比如“接下来要抓的杯子在哪”的画面)和文字推理(比如“先把杯子从托盘移到盒子”)。

#人工智能#机器学习#深度学习
【论文自动阅读】dVLA: DIFFUSION VISION-LANGUAGE-ACTION MODEL WITH MULTIMODAL CHAIN-OF-THOUGHT

研究团队提出了名为dVLA的模型,它是一种基于扩散模型的视觉-语言-动作(VLA)系统。简单来说,就是让机器人能像人一样“看环境、懂指令、做动作”:通过统一的训练目标,把视觉感知(看图像)、语言推理(理解文字指令)和机器人控制(生成动作)整合到一起,还加入了“多模态思维链”——让机器人在行动前先生成子目标图像(比如“接下来要抓的杯子在哪”的画面)和文字推理(比如“先把杯子从托盘移到盒子”)。

#人工智能#机器学习#深度学习
【论文自动阅读】VacuumVLA: Boosting VLA Capabilities via a Unified Suction and Gripping Tool for Complex Rob

研究者设计了一种低成本的“二合一”机器人末端执行器,把传统的两指机械抓手和真空吸盘整合到一起,能灵活切换或协同使用两种功能;同时基于现有两种先进的视觉-语言-动作(VLA)框架(DexVLA和π₀),扩展了模型对吸盘状态的控制能力,形成了VacuumVLA系统。通过实验验证,该系统能完成传统两指抓手做不到的家务任务(如开无把手抽屉、拿薄玻璃、开纸板箱),且硬件设计和控制系统会开源,方便后续研究。

#人工智能#算法
【论文自动阅读】DISCRETE DIFFUSION VLA: BRINGING DISCRETE DIFFUSION TO ACTION DECODING IN VISION-LANGUAGE-AC

作者提出了一种名为“Discrete Diffusion VLA”的模型,核心是把“离散扩散”技术融入视觉-语言-动作(VLA)机器人控制模型中。该模型用一个统一的Transformer架构整合视觉(图像)、语言(指令)和动作(机器人控制指令),解决了传统VLA模型要么“按固定顺序生成动作(效率低)”、要么“用单独模块处理动作(与主模型脱节)”的问题。

#人工智能#算法#论文阅读
【论文自动阅读】E₀: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete

本文提出了一个名为E₀的连续化离散扩散框架,用于改进视觉-语言-动作(VLA)模型。该框架通过将机器人动作量化为离散令牌,结合迭代去噪的扩散机制,让VLA模型既能兼容预训练视觉-语言骨干网络的符号结构,又能匹配真实机器人控制的量化特性,最终实现机器人在不同任务、场景和摄像头视角下的更强泛化能力,以及更精细、稳定的操作动作。

#人工智能#论文阅读
【论文自动阅读】E₀: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete

本文提出了一个名为E₀的连续化离散扩散框架,用于改进视觉-语言-动作(VLA)模型。该框架通过将机器人动作量化为离散令牌,结合迭代去噪的扩散机制,让VLA模型既能兼容预训练视觉-语言骨干网络的符号结构,又能匹配真实机器人控制的量化特性,最终实现机器人在不同任务、场景和摄像头视角下的更强泛化能力,以及更精细、稳定的操作动作。

#人工智能#论文阅读
pycharm远程debug总跳转remote_sources解决办法

解决pycharm远程debug总跳转remote sources里的办法

文章图片
#pycharm#ide#python
    共 12 条
  • 1
  • 2
  • 请选择