logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文阅读】RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

设计了指标敏感的过程奖励函数(Metric-sensitive Process Reward),不仅关注最终预测点的准确性(结果奖励),还通过过程奖励(Accuracy Reward)对中间推理步骤的感知精度进行评估和激励。尽管现有的视觉语言模型(VLM)很强大,但在处理复杂的3D场景和根据指令动态推理交互位置方面仍存在不足。结论:实验证明,通过结合专用深度编码器(SFT)和指标敏感的过程奖励(R

#论文阅读#语言模型#人工智能
【论文阅读】RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

设计了指标敏感的过程奖励函数(Metric-sensitive Process Reward),不仅关注最终预测点的准确性(结果奖励),还通过过程奖励(Accuracy Reward)对中间推理步骤的感知精度进行评估和激励。尽管现有的视觉语言模型(VLM)很强大,但在处理复杂的3D场景和根据指令动态推理交互位置方面仍存在不足。结论:实验证明,通过结合专用深度编码器(SFT)和指标敏感的过程奖励(R

#论文阅读#语言模型#人工智能
【论文阅读】AbsoluteZero: ReinforcedSelf-play Reasoningwith Zero Data

相比之下,在“自提议(self-proposed)”的代码推理任务上训练的 AZR-Base-7B 和 AZR-Coder-7B,其数学平均分分别提升了 10.9 分和 15.2 分。这表明,强大的代码能力在经过 AZR 训练后,能够显著放大模型整体推理能力的提升。为了处理多任务环境下的高方差,它为 2 种角色(提问者/解题者)和 3 种任务类型(归纳/演绎/溯因)的组合设计了 6 个独立的基准值

#论文阅读
MoE演变过程

因为有些信息是通识的,所以建立Shared Expert共享专家,这些专家是每个token都要过的,然后其他专业领域的专家由router进行选择,然后再加权求和。SparseMoE选择topk个专家(没有激活全部专家,所以叫sparse),然后各专家的输出进行加权求和。这个模型是由Switch Transformer论文中提出来的,其预训练速度是密集模型的7倍。用router给出各专家的权重,然后

文章图片
【论文阅读】π0.5: a Vision-Language-Action Model with Open-World Generalization

核心思路:通过异构任务联合训练(Co-training),将互联网海量常识(Web Data)、跨本体机器人知识(Cross-Embodiment)与目标机器人的移动操作数据结合。通过层次化推理(感知。问题背景:现有的机器人模型(VLA)在受控实验室表现良好,但在复杂的真实家庭环境中面临泛化性差、无法处理长程任务(如 15 分钟的家务)以及无法理解复杂指令的挑战。感知层(Bounding Box)

#论文阅读
【论文阅读】π0.5: a Vision-Language-Action Model with Open-World Generalization

核心思路:通过异构任务联合训练(Co-training),将互联网海量常识(Web Data)、跨本体机器人知识(Cross-Embodiment)与目标机器人的移动操作数据结合。通过层次化推理(感知。问题背景:现有的机器人模型(VLA)在受控实验室表现良好,但在复杂的真实家庭环境中面临泛化性差、无法处理长程任务(如 15 分钟的家务)以及无法理解复杂指令的挑战。感知层(Bounding Box)

#论文阅读
【论文阅读】DSRL: Steering Your Diffusion Policy with Latent Space Reinforcement Learning

问题背景:虽然基于行为克隆(BC)的扩散策略(Diffusion Policy)在机器人领域表现出色,但当预训练模型性能不足时,通常需要昂贵的人工演示来改进。传统的强化学习(RL)虽然能自主改进,但在高维动作空间中样本效率极低,且容易破坏扩散模型学到的先验分布,甚至。架构:使用了基于 Soft Actor-Critic (SAC) 框架的结构,包含 Actor 网络(预测噪声位移)和 Critic

#论文阅读
【论文阅读】Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

研究表明,通过结合高性能的遥操作硬件和能够处理高频、精确反馈的模仿学习算法,低成本机器人也能完成复杂的精细操作任务。:通过分块,原本需要几千步才能完成的任务,在模型的视角下变成了几十个“块”的衔接。时间集成(Temporal Ensembling):为了提高动作的平滑度,模型在每个时间步都会预测一个动作块,并对重叠部分的预测值进行加权平均。:当模型预测一个长达 100 步的动作序列时,这个序列内部

#论文阅读
【论文阅读】VLA-pilot:Towards Deploying VLA without Fine-Tuning

但是由于预训练数据和特定任务的分布不一致(比如预训练中是抓蓝色杯子,但是任务是抓红色杯子),导致抓取动作的概率很低。VLA提供动作分布和置信度,外部验证器利用多模态大模型(比如GPT-4V)对开放世界的理解能力,通过自然语言推理对任务和动作进行重新评估,使得正确动作的概率更高。策略引导是指的将模型输出的多种轨迹进行评估,从而选择最佳的轨迹。好处是:不需再SFT,通过初始的采样轨迹,剔除差的,保留好

#论文阅读
【论文精读】RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

已知:目前VLM在VQA,推理等方面有强大的能力,可以给出机器人的高阶指令high-level commands,需要各种controller去给出指令,无法VLM自己给出直接用于控制的低阶指令Cartesian end-effector commands。问题:想要机器人能够获得足够强大的能力,暴力的方法就是采集足够大量的数据 millions of robot interaction tria

#语言模型#人工智能#机器人
    共 20 条
  • 1
  • 2
  • 请选择