【AI视野·今日Robot 机器人论文速览第三十九期】Fri, 22 Sep 2023

AI视野·今日CS.Robotics 机器人学论文速览Fri, 22 Sep 2023Totally 39 papers👉上期速览✈更多精彩请移步主页Daily Robotics PapersForceSight: Text-Guided Mobile Manipulation with Visual-Force GoalsAuthors Jeremy A. Collins, Cody Houf

hitrjj

286人浏览 · 2023-09-23 18:20:46

hitrjj · 2023-09-23 18:20:46 发布

AI视野·今日CS.Robotics 机器人学论文速览
Fri, 22 Sep 2023
Totally 39 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

*****📚GelSight Svelte, 具有大范围感知和本体感知的人形手指、轻薄型触觉传感器。 (from MIT)
在这里插入图片描述

在这里插入图片描述

website: https://gelsight-svelte.alanz.info/

***📚DenseTact-Mini,触觉传感器，集成指甲盖可以抓取平面小物体。 (from 斯坦福 ARMLab)
在这里插入图片描述

website: https://sites.google.com/view/densetact-mini

📚GelSight Svelte Hand, 集成手指触觉的软手，(from MIT)
在这里插入图片描述

website：https://gelsight-svelte.alanz.info/

📚9DTac, 一种可以直接输出深度3D结果和6D合力的触觉传感器。(from 期智研究员)
在这里插入图片描述

website:https://linchangyi1.github.io/9DTact/

📚TV AI–See to Touch, 从视觉和触觉图像中强化学习出灵巧操作策略。(from 纽约大学)

在这里插入图片描述
website: https://see-to-touch.github.io/

Daily Robotics Papers

ForceSight: Text-Guided Mobile Manipulation with Visual-Force Goals
Authors Jeremy A. Collins, Cody Houff, You Liang Tan, Charles C. Kemp
我们推出了 ForceSight，这是一种用于文本引导移动操作的系统，可使用深度神经网络预测视觉力目标。给定与文本提示相结合的单个 RGBD 图像，ForceSight 确定相机帧运动学目标中的目标末端执行器姿势以及相关的力力目标。这两个组成部分共同构成了视觉力目标。先前的工作已经证明，输出人类可解释的运动学目标的深度模型可以实现真实机器人的灵巧操纵。力对于操纵至关重要，但在这些系统中通常被降级到较低级别的执行。当部署在配备有手眼 RGBD 摄像头的移动机械手上时，ForceSight 执行了诸如精确抓取、抽屉打开和对象移交等任务，在未见过的环境中（对象实例与训练数据存在显着差异）的成功率为 81。在一项单独的实验中，仅依靠视觉伺服并忽略力目标将成功率从 90 降至 45，这表明力目标可以显着提高性能。

See to Touch: Learning Tactile Dexterity through Visual Incentives
Authors Irmak Guzey, Yinlong Dai, Ben Evans, Soumith Chintala, Lerrel Pinto
为多指机器人配备触觉传感对于实现人类所擅长的精确、接触丰富且灵巧的操作至关重要。然而，仅仅依靠触觉感知无法提供足够的线索来推理物体的空间配置，从而限制了纠正错误和适应不断变化的情况的能力。在本文中，我们提出了视觉激励的触觉适应 TAVI，这是一个新框架，通过使用基于视觉的奖励优化灵巧策略来增强基于触觉的灵巧性。首先，我们使用基于对比的目标来学习视觉表示。接下来，我们通过基于人类演示的最佳传输匹配，使用这些视觉表示构建奖励函数。最后，我们在机器人上使用在线强化学习来优化基于触觉的策略，从而最大化视觉奖励。在六项具有挑战性的任务上，例如挂钩拾放、拆碗和翻转细长物体，TAVI 使用我们的四指 Allegro 机器人手实现了 73 的成功率。与使用基于触觉和视觉的奖励的策略相比，性能提高了 108 倍，比没有触觉观察输入的策略提高了 135 倍。

Real-Time Capable Decision Making for Autonomous Driving Using Reachable Sets
Authors Niklas Kochdumper, Stanley Bak
尽管近年来取得了巨大进步，但自动驾驶道路车辆的实时运动规划仍然是一个巨大的挑战。在这项工作中，我们提出了一个基于集合的可达性分析的决策模块。首先，我们通过计算车辆沿道路网络小巷的纵向位置的可达集来识别所有可能的驾驶走廊，其中对车道变化进行建模作为离散事件。接下来，我们根据成本函数选择最佳的驾驶走廊，该函数对车道变换和偏离所需速度曲线的行为进行惩罚。最后，我们在选定的驾驶走廊内生成参考轨迹，可用于指导或热启动低级轨迹规划器。对于数值评估，我们将决策模块与基于运动原语和基于优化的规划器相结合，并评估 2000 个具有挑战性的 CommonRoad 交通场景以及现实 CARLA 模拟器中的性能。

Planning Optimal Trajectories for Mobile Manipulators under End-effector Trajectory Continuity Constraint
Authors Quang Nam Nguyen, Quang Cuong Pham
由于移动基座的移动性，移动机械手已被用于许多通常由多个固定基座机器人或大型系统执行的应用中。然而，移动基地也给系统带来了冗余，这使得轨迹规划更具挑战性。移动3D打印最近出现的一类问题是轨迹连续任务，其中末端执行器需要遵循任务空间中设计的连续轨迹时间参数化路径。本文制定并解决了末端执行器轨迹连续性约束下移动机械臂的最优轨迹规划问题，允许考虑其他约束和轨迹优化。

Generating robotic elliptical excisions with human-like tool-tissue interactions
Authors Arturas Straizys, Michael Burke, Subramanian Ramamoorthy
在手术中，应用适当的力水平对于给定手术的成功和安全至关重要。虽然许多研究都集中在测量原位力，但很少有人关注将这些观察到的力与手术技术联系起来。回答诸如手术技术的某些改变是否会导致力量降低和安全裕度增加等问题可能会改善手术实践，更重要的是改善患者的治疗效果。然而，此类研究需要大量试验和专业外科医生，这通常是不切实际的。相反，我们展示了机器人如何从少量的手术演示中学习手术技术的多种变化，并通过参数化的技能模型插入学习的行为。这使得机器人系统能够进行大量试验，并分析手术技术及其对组织的下游影响。在这里，我们引入了椭圆切除技能的参数化模型，并应用贝叶斯优化方案来根据专家评分以及切除力的个体特征来优化切除行为。

SG-Bot: Object Rearrangement via Coarse-to-Fine Robotic Imagination on Scene Graphs
Authors Guangyao Zhai, Xiaoni Cai, Dianye Huang, Yan Di, Fabian Manhardt, Federico Tombari, Nassir Navab, Benjamin Busam
对象重新排列在机器人环境交互中至关重要，代表了嵌入式人工智能的重要功能。在本文中，我们提出了 SG Bot，这是一种新颖的重排框架，它利用从粗到细的方案，并以场景图作为场景表示。与之前依赖已知目标先验或零样本大型模型的方法不同，SG Bot 体现了轻量级、实时和用户可控的特性，将常识知识的考虑与自动生成功能无缝地融合在一起。 SG Bot 采用三重过程观察、想象和执行来熟练地完成任务。最初，在观察过程中从杂乱的场景中识别和提取物体。这些对象首先在常识或用户定义的标准的指导下在场景图中进行粗略组织和描述。然后，该场景图随后通知生成模型，该模型考虑来自初始场景和对象语义的形状信息，形成细粒度的目标场景。最后，在执行过程中，将初始目标场景与设想的目标场景进行匹配，以制定机器人动作策略。

Estimation of the angular position of a two-wheeled balancing robot using a real IMU with selected filters
Authors Krzysztof Laddach, Rafa angowski, Tomasz Zubowicz
本文提出了一种低成本测量系统，该系统使用测量值过滤来实现两轮平衡机器人稳定性目的。特别是，考虑了基于陀螺仪、加速度计和编码器的测量系统。测量结果已针对确定性干扰进行了校正，然后使用卡尔曼、αβ 型和互补滤波器进行滤波。对选定的过滤器进行了定量评估。至此，得到了完整的测量系统结构。

On the relationship between Benchmarking, Standards and Certification in Robotics and AI
Authors Alan F.T. Winfield, Matthew Studley
基准测试、标准和认证是密切相关的过程。标准可以提供机器人和人工智能系统可能符合或可能不符合的规范要求。认证通常依赖于是否符合一个或多个标准，作为授予操作证书的关键决定因素。基准是一组标准化测试，可以用来衡量机器人和人工智能系统。因此，基准可以被视为非正式标准。

HiCRISP: A Hierarchical Closed-Loop Robotic Intelligent Self-Correction Planner
Authors Chenlin Ming, Jiacheng Lin, Pangkit Fong, Han Wang, Xiaoming Duan, Jianping He
将大型语言模型法学硕士集成到机器人技术中彻底改变了人类机器人交互和自主任务规划。然而，这些系统在任务执行过程中通常无法自我纠正，这阻碍了它们在动态现实环境中的适应性。为了解决这个问题，我们提出了分层闭环机器人智能自我校正规划器 HiCRISP，这是一个创新框架，使机器人能够在任务执行过程中纠正各个步骤中的错误。 HiCRISP 主动监控和调整任务执行过程，解决高层规划和低层行动错误。

Uncertainty-driven Exploration Strategies for Online Grasp Learning
Authors Yitian Shi, Philipp Schillinger, Miroslav Gabriel, Alexander Kuss, Zohar Feldman, Hanna Ziesche, Ngo Anh Vien
现有的抓取预测方法大多基于离线学习，而忽略了在线适应新的拾取场景时的探索性抓取学习，即未见过的物体组合、相机和箱设置等。在本文中，我们提出了一种新颖的在线学习方法以有原则的方式对机器人垃圾箱拣选进行抓取预测。现有的抓取预测方法大多基于离线学习，而忽略了在线适应新的拾取场景时的探索性抓取学习，即未见过的物体组合、相机和箱设置等。在本文中，我们提出了一种新颖的在线学习方法以有原则的方式对机器人垃圾箱拣选进行抓取预测。具体来说，具有有效探索策略的在线学习算法可以显着提高其对未见过的环境设置的适应性能。为此，我们首先建议将在线抓取学习制定为 RL 问题，该问题将允许适应抓取奖励预测和抓取姿势。我们提出了基于贝叶斯不确定性量化和分布系综的各种不确定性估计方案。我们对现实世界中不同难度的垃圾箱拣选场景进行评估。垃圾箱中的物体具有各种具有挑战性的物理和感知特征，其特征可以是半透明或完全透明，以及不规则或弯曲的表面。

Predictor models for high-performance wheel loading
Authors Koji Aoshima, Arvid F lldin, Eddie Wadbro, Martin Servin
自主车轮加载涉及选择在多次重复中最大化总体性能的操作。这些行动应该很好地适应桩的当前状态及其未来状态。选择最佳动作很困难，因为桩状态是先前动作的结果，因此高度未知。为了帮助选择动作，本文研究了数据驱动模型，以预测给定初始桩状态的加载动作的加载质量、时间、工作以及最终的桩状态。使用超过 10,000 次模拟对深度神经网络进行数据训练，准确度达到 91 97，桩状态由高度图或其坡度和曲率表示。通过每次加载五毫秒重复模型推理来预测顺序加载操作的最终结果。

NanoSLAM: Enabling Fully Onboard SLAM for Tiny Robots
Authors Vlad Niculescu, Tommaso Polonelli, Michele Magno, Luca Benini
感知和绘制周围环境对于在任何机器人平台中实现自主导航至关重要。同步定位和建图 SLAM 是一种算法，它能够实现准确的地图绘制，同时纠正大多数机器人系统中存在的里程计误差。如今，完全机载测绘只能在可承载高功率处理器的机器人平台上实现，这主要是由于执行 SLAM 算法所需的大量计算负载和内存需求。因此，袖珍硬件受限的机器人将 SLAM 的执行任务转移到外部基础设施上。为了解决在资源受限的处理器上启用 SLAM 算法的挑战，本文提出了 NanoSLAM，这是一种轻量级、优化的端到端 SLAM 方法，专门设计用于以仅 87.9 mW 的功率预算在厘米大小的机器人上运行。我们展示了现实场景中的地图绘制功能，并将 NanoSLAM 部署在重 44 克、配备新型商用 RISC V 低功耗并行处理器（称为 GAP9）的纳米无人机上。

Improving GPS-VIO Fusion with Adaptive Rotational Calibration
Authors Junlin Song, Pedro J. Sanchez Cuevas, Antoine Richard, Raj Thilak Rajan, Miguel Olivares Mendez
准确的全球定位对于自主导航和规划至关重要。为此，文献中提出了GPS辅助视觉惯性里程计GPS VIO融合算法。本文提出了一种新型 GPS VIO 系统，该系统能够显着受益于 GPS 参考系和 VIO 参考系之间旋转外在参数的在线自适应校准。背后的原因是这个参数是可观察的。本文通过非线性可观测性分析提供了新颖的证明。我们还在不同平台上广泛评估了所提出的算法，包括飞行无人机和驾驶车辆。

To The Effects of Anthropomorphic Cues on Human Perception of Non-Human Robots: The Role of Gender
Authors Mahya Ramezani, Jose Luis Sanchez Lopez
随着非人形机器人越来越多地渗透到各个领域，了解它们的设计对人类接受度的影响变得至关重要。尽管它们无处不在，但关于如何优化其设计以实现更好的人机交互的研究却很少。我们通过两项综合调查进行的调查弥补了这一差距。第一项调查描绘了机器人行为和身体属性、感知职业适宜性和性别归因之间的相关性，表明设计和感知性别都会显着影响接受度。调查 2 深入研究了不同性别线索对机器人设计的影响及其对人类机器人交互的影响。

Crop Row Switching for Vision-Based Navigation: A Comprehensive Approach for Efficient Crop Field Navigation
Authors Rajitha de Silva, Grzegorz Cielniak, Junfeng Gao
耕地中基于视觉的移动机器人导航系统大多局限于行间导航。在此类系统中，从一个作物行切换到下一个作物行的过程通常需要 GNSS 传感器或多个摄像机设置的帮助。本文提出了一种基于视觉的新颖作物行切换算法，该算法使移动机器人能够使用单个前置摄像头导航整个可耕作作物田地。所提出的行切换操作使用基于深度学习的 RGB 图像分割和深度数据来检测作物行的末端，并重新进入下一个作物行的入口点，这将在多状态行切换管道中使用。该管道的每个状态都使用机器人的视觉反馈或车轮里程计来成功导航到下一个作物行。拟议的作物行导航管道在真实的甜菜田中进行了测试，该田地中的作物行具有不连续性、不同的光照水平、阴影和不规则的岬角表面。

Representation Abstractions as Incentives for Reinforcement Learning Agents: A Robotic Grasping Case Study
Authors Panagiotis Petropoulakis, Ludwig Gr f, Josip Josifovski, Mohammadhossein Malmir, Alois Knoll
为 gls RL 代理的底层决策过程选择适当的环境表示并不总是那么简单。国家代表应该具有足够的包容性，以便代理人能够根据信息决定其行动，并且足够紧凑，以提高政策培训的样本效率。鉴于这种前景，这项工作研究了各种状态表示在激励代理解决特定机器人任务对映和平面物体抓取方面的效果。定义了状态表示抽象的连续体，从具有完整系统知识的基于模型的方法开始，通过手工制作的数值，到具有递减的诱导任务特定知识水平的基于图像的表示。我们检查每种表示对代理解决模拟任务的能力以及所学策略向真实机器人的可迁移性的影响。结果表明，使用数字状态的 RL 智能体的表现与非学习基线相当。此外，我们发现使用来自预先训练的环境嵌入向量的基于图像的表示的代理比端到端训练的代理表现得更好，并假设任务特定的知识对于在机器人控制中实现收敛和高成功率是必要的。

RTS-GT: Robotic Total Stations Ground Truthing dataset
Authors Maxime Vaidis, Mohsen Hassanzadeh Shahraji, Effie Daum, William Dubois, Philippe Gigu re, Fran ois Pomerleau
有大量数据集和基准用于评估和比较同步定位和建图 SLAM 算法。尽管如此，它们的精度必须跟上近年来 SLAM 算法改进的速度。此外，当前的数据集缺乏用于再现性和评估记录轨迹的精度或准确性的全面数据收集协议。考虑到这一目标，我们提出了机器人全站仪地面实况数据集 RTS GT 数据集，通过生成六自由度地面实况轨迹来支持定位研究。这个新颖的数据集包括使用跟踪移动机器人平台的三个机器人全站仪 RTS 系统生成的六个自由度地面实况轨迹。此外，我们还比较了基于 RTS 的系统与基于全球导航卫星系统 GNSS 的设置的性能。该数据集包含 17 个月内在各种条件下进行的约 60 次实验，涵盖超过 49 公里的轨迹，使其成为迄今为止最广泛的基于 RTS 的测量数据集。此外，我们还提供每个实验的所有姿势的精度，这是当前最先进的数据集中未发现的功能。

Simulation-to-reality UAV Fault Diagnosis in windy environments
Authors Wei Zhang, Junjie Tong, Fang Liao, Yunfeng Zhang
监测螺旋桨故障对于维持四旋翼无人机的安全可靠运行至关重要。模拟现实无人机故障诊断技术为识别螺旋桨故障提供了一种安全且经济的方法。然而，由于室外场景中的风扰动，用模拟数据训练的分类器在实际飞行中表现不佳。在这项工作中，我们提出了一种基于不确定性的故障分类器UFC，以解决大风场景下模拟对真实无人机故障诊断的挑战。它使用基于差异的深度卷积神经网络 EDDCNN 来减少模型方差和偏差。此外，它采用基于不确定性的决策框架来过滤不确定的预测。

TeachingBot: Robot Teacher for Human Handwriting
Authors Zhimin Hou, Cunjun Yu, David Hsu, Haoyong Yu
向人类教授身体技能需要教师和学习者之间进行一对一的互动。由于师资短缺，这种教学模式面临着规模化的挑战。机器人凭借其可复制的性质和物理能力，提供了一种解决方案。在这项工作中，我们展示了TeachingBot，这是一个设计用于向人类学习者教授书写的机器人系统。我们在这项教学任务中解决了两个主要挑战：适应每个学习者的独特风格以及创造引人入胜的学习体验。 TeachingBot 使用基于学习者笔迹的概率学习方法来捕捉学习者的风格。然后，根据学习风格，它为人类学习者提供可变阻抗的物理指导，使学习体验更有吸引力。基于 15 名人类受试者的人类受试者实验结果支持教学机器人的有效性，证明与基线方法相比，人类学习成果有所改善。

Person Re-Identification for Robot Person Following with Online Continual Learning
Authors Hanjing Ye, Jieting Zhao, Yu Zhan, Weinan Chen, Li He, Hong Zhang
机器人人跟随 RPF 是人机交互 HRI 应用中的一项关键功能，它允许机器人持续跟随指定的人。在实际的 RPF 场景中，人经常被其他物体或人遮挡。因此，当人出现在机器人视野内时，有必要重新识别该人。以前的人员重新识别 ReID 方法对人员跟踪依赖于离线训练的特征和短期经验。这种方法在不同场景中的泛化能力有限，并且当人的出现超出短期经验所代表的学习范围时，通常无法重新识别该人。基于这一观察，在这项工作中，我们提出了一个利用长期经验的 RPF ReID 框架。这些体验通过损失引导关键帧选择策略来维护，以实现外观模型的在线持续学习。

Rendering stable features improves sampling-based localisation with Neural radiance fields
Authors Boxuan Zhang, Lindsay Kleeman, Michael Burke
神经辐射场 NeRF 是隐式场景表示的强大工具，允许可微分渲染并能够对以前未见过的视点进行预测。从机器人学的角度来看，人们对使用 NeRF 进行基于对象和场景的定位越来越感兴趣，最近的许多工作依赖于基于采样或蒙特卡罗定位方案。不幸的是，这些计算成本可能非常昂贵，需要多个网络前向传递来推断相机或物体姿态。为了缓解这一问题，人们应用了各种采样策略，其中许多策略依赖于经典计算机视觉的关键点识别技术。这项工作对这些方法进行了系统的实证比较，并表明与基于几何的定位的传统特征匹配方法相比，使用 NeRF 的基于采样的定位显着受益于稳定的特征。

Active perception network for non-myopic online exploration and visual surface coverage
Authors David Vutetakis, Jing Xiao
这项工作解决了未知环境的在线探索和视觉传感器覆盖问题。我们引入了一种新颖的感知路线图，我们称之为主动感知网络 APN，它作为一个分层拓扑图来描述如何遍历和感知增量构建的环境空间图。 APN 状态被增量更新，以扩展连接的配置空间，该空间延伸到尽可能多的已知空间，使用有效的差异感知技术跟踪空间图的离散变化来通知更新。提出了一种前沿引导方法，用于有效评估信息增益和可见信息，指导视图采样和细化，以确保 APN 内保持未映射空间的最大覆盖范围。更新的路线图被分层分解为子图区域，我们用它来促进非短视的全局视图序列规划器。

Task-Oriented Grasping with Point Cloud Representation of Objects
Authors Aditya Patankar, Khiem Phi, Dasharadhan Mahalingam, Nilanjan Chakraborty, IV Ramakrishnan
在本文中，我们研究了使用手眼相机配置从部分点云数据进行面向任务的抓取合成的问题。在面向任务的抓取合成中，必须选择抓取，以便在操作过程中不会丢失物体，并且还要确保可以施加足够的力矩来执行任务。我们将粗略操作任务的概念形式化为在抓取后应用于物体的恒定螺旋运动或一系列恒定螺旋运动。使用这种任务概念以及我们之前的工作中开发的相应抓取质量度量，我们使用神经网络来近似预测长方体形状上的抓取质量度量的函数。我们证明，通过使用从对象的部分点云获得的边界框以及上面提到的抓取质量度量，我们可以在边界框上生成良好的抓取区域，该区域可用于计算实际对象的对映抓取。我们的算法不使用任何手动标记的数据或抓取模拟器，因此可以非常有效地实现和与基于螺旋线性插值的运动规划器集成。

Real-to-Sim Deformable Object Manipulation: Optimizing Physics Models with Residual Mappings for Robotic Surgery
Authors Xiao Liang, Fei Liu, Yutong Zhang, Yuelei Li, Shan Lin, Michael Yip
准确的可变形物体操纵 DOM 对于实现机器人手术的自主性至关重要，在机器人手术中，软组织需要移位、拉伸和解剖。许多 DOM 方法都可以通过模拟来支持，模拟通过遵守控制物理约束并允许模型预测和控制来确保真实的变形。然而，机器人手术中的真实软物体（例如膜和软组织）具有复杂的各向异性物理参数，通过摄像机进行简单初始化的模拟可能无法完全捕获这些参数。为了在实际手术任务中使用模拟技术，需要适当补偿真实与模拟之间的差距。在这项工作中，我们提出了一种用于模拟优化的在线自适应参数调整方法，该方法 1 弥补了物理模拟与通过估计残差映射获得的 3D 感知观察结果之间的真实与模拟之间的差距，2 在线优化其刚度参数。我们的方法确保模拟和观察之间的残余差距很小，并提高模拟的预测能力。所提出机制的有效性在代表大多数组织情况的薄壳和体积组织的操作中进行评估。

Achieving Autonomous Cloth Manipulation with Optimal Control via Differentiable Physics-Aware Regularization and Safety Constraints
Authors Yutong Zhang, Fei Liu, Xiao Liang, Michael Yip
布料操纵是机器人界非常感兴趣的一类可变形物体操纵，从自动洗衣折叠和家庭整理和清洁的应用到纺织品和柔性制造。尽管人们希望实现自动布料操纵，但布料的薄壳动力学和欠驱动特性给机器人有效地与其交互带来了重大挑战。最近的许多工作省略了显式建模，转而采用基于学习的方法，可以直接产生控制策略。然而，这些方法需要收集和管理大量的训练集。在这方面，我们利用基于扩展位置的 Dynamics XPBD 算法创建了一个布料动力学可微分建模框架。与所需的控制目标一起，物理感知正则化项旨在获得更好的结果，包括轨迹平滑度和弹性势能。此外，可以使用有符号距离函数 SDF 来指定安全约束，例如避开障碍物。我们将具有安全约束的布料操纵任务制定为约束优化问题，由于我们框架的端到端可微性，可以通过主流的基于梯度的优化器有效地解决该问题。最后，我们评估了所提出的具有各种安全阈值的操作任务框架，并证明了手术机器人结果轨迹的可行性。

Online Supervised Training of Spaceborne Vision during Proximity Operations using Adaptive Kalman Filtering
Authors Tae Ha Park, Simone D Amico
这项工作提出了一种在线监督训练 OST 方法，以实现关于非合作航天器的基于视觉的鲁棒导航。星载神经网络 NN 很容易受到域间隙的影响，因为由于空间的不可访问性，它们主要使用合成图像进行训练。 OST 旨在通过在交会和邻近操作 RPO 期间使用传入的飞行图像在线训练姿态估计神经网络来缩小这一差距。伪标签由自适应无迹卡尔曼滤波器提供，其中神经网络在循环中用作测量模块。具体来说，滤波器跟踪目标的相对轨道和姿态运动，并且仅使用合成数据对神经网络进行稳健的地面训练来确保其准确性。

TOPPQuad: Dynamically-Feasible Time Optimal Path Parametrization for Quadrotors
Authors Katherine Mao, Igor Spasojevic, M. Ani Hsieh, Vijay Kumar
在杂乱环境中规划四旋翼飞行器的时间最优轨迹是一个具有挑战性的非凸问题。本文致力于在不违反车辆各个电机推力限制的情况下，最大限度地减少给定无碰撞几何路径的遍历时间。以前的方法要么依赖于不能保证动态可行性的凸松弛，要么生成过于保守的时间参数化。我们提出了 TOPPQuad，一种四旋翼飞行器的时间最优路径参数化算法，它明确地结合了四旋翼飞行器刚体动力学和约束，例如输入的边界，包括电机速度和车辆状态，包括位姿、线速度和角速度和加速度。与具有宽松的动态可行性概念的几个规划器相比，我们证明了规划器能够生成更快的轨迹，并且尊重机器人的硬件约束。我们还演示了如何使用 TOPPQuad 来规划使用双向电机的四旋翼飞行器的轨迹。

Cloud-Based Hierarchical Imitation Learning for Scalable Transfer of Construction Skills from Human Workers to Assisting Robots
Authors Hongrui Yu, Vineet R. Kamat, Carol C. Menassa
将重复且体力要求高的施工任务分配给机器人可以减轻人类工人遭受职业伤害的风险。将必要的灵巧且适应性强的手工施工技能从工人转移到机器人对于成功委派施工任务和实现高质量的机器人施工工作至关重要。预定义的运动规划脚本往往会在非结构化建筑工地环境中生成刚性且容易发生碰撞的机器人行为。相比之下，模仿学习 IL 提供了更强大、更灵活的技能转移方案。然而，大多数IL算法依赖于人类工人来反复地全面展示任务性能，这在建筑工作中可能会适得其反并且不可行。为了解决这个问题，本文提出了一种基于云机器人的沉浸式虚拟演示框架，该框架有两个主要目的。首先，它将演示过程数字化，消除了对重型建筑物体进行重复物理操作的需要。其次，它采用了可重用演示的联合集合，这些演示可以在未来转移到类似的任务中，从而减少人工代理重复演示任务的要求。此外，为了增强机器人训练的可信度、可解释性和道德健全性，该框架利用分层模仿学习 HIL 模型将人类操作技能分解为顺序和反应子技能。这两层技能由深度生成模型表示，从而实现机器人动作的自适应控制。

Development of a Feeding Assistive Robot Using a Six Degree of Freedom Robotic Arm
Authors Md Esharuzzaman Emu, Samarjith Biswas, Rajendra Shrestha
该项目推出了一款专为身体残疾者（包括手臂功能或手部控制能力有限的人）量身定制的喂养辅助机器人。核心部件是一个精确的6度自由度机械臂，通过语音命令无缝操作。基于 Arduino 的 Braccio Arm、距离传感器和蓝牙模块的集成可实现语音控制运动。主要目标是让用户能够独立选择和消费膳食，无论是在餐桌上还是在床上。

A real-time, hardware agnostic framework for close-up branch reconstruction using RGB data
Authors Alexander You, Jochen Hemming, Cindy Grimm, Joseph R. Davidson
创建准确的树拓扑 3D 模型是树木修剪的一项重要任务。 3D模型用于决定修剪哪些分支，然后执行修剪切割。以前创建 3D 树模型的方法通常依赖于点云，处理点云的计算成本通常很高，并且可能会出现数据缺陷，尤其是对于细树枝。在本文中，我们提出了一种沿着主树枝主动扫描、检测要修剪的次树枝并仅使用安装在机器人手臂上的 RGB 相机重建其 3D 几何形状的方法。我们通过实验验证我们的设置能够生成具有 4 5 毫米精度的主分支模型和相对于地面实况模型具有 15 度方向精度的辅助分支模型。

LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent
Authors Jianing Yang, Xuweiyi Chen, Shengyi Qian, Nikhil Madaan, Madhavan Iyengar, David F. Fouhey, Joyce Chai
3D 视觉基础是家用机器人的一项关键技能，使它们能够根据环境进行导航、操纵物体并回答问题。虽然现有方法通常依赖于大量标记数据或在处理复杂语言查询时表现出局限性，但我们提出了 LLM Grounder，这是一种新颖的零样本、开放词汇、基于大型语言模型 LLM 的 3D 视觉基础管道。 LLM Grounder 利用 LLM 将复杂的自然语言查询分解为语义成分，并采用 OpenScene 或 LERF 等视觉基础工具来识别 3D 场景中的对象。然后，法学硕士评估所提出的对象之间的空间和常识关系，以做出最终的基础决定。我们的方法不需要任何标记的训练数据，并且可以推广到新颖的 3D 场景和任意文本查询。我们根据 ScanRefer 基准评估 LLM Grounder，并展示最先进的零射击接地精度。我们的研究结果表明，LLM 显着提高了基础能力，尤其是对于复杂的语言查询，使 LLM Grounder 成为机器人领域 3D 视觉语言任务的有效方法。

Learning to Drive Anywhere
Authors Ruizhao Zhu, Peng Huang, Eshed Ohn Bar, Venkatesh Saligrama
人类驾驶员可以在不同的地理位置和不同的道路条件和规则（例如左侧交通和右侧交通）中无缝地调整其驾驶决策。相比之下，现有的自动驾驶模型迄今为止仅部署在有限的操作域内，即没有考虑到跨位置的不同驾驶行为或模型可扩展性。在这项工作中，我们提出了 AnyD，这是一种单一的地理感知条件模仿学习 CIL 模型，可以有效地从具有动态环境、交通和社会特征的异构和全球分布数据中学习。我们的主要见解是引入基于高容量地理位置的通道注意机制，该机制有效地适应当地的细微差别，同时还以数据驱动的方式灵活地对区域之间的相似性进行建模。通过优化对比模仿目标，我们提出的方法可以有效地扩展固有不平衡的数据分布和位置相关事件。我们展示了 AnyD 代理在多个数据集、城市和可扩展部署范例（即集中式、半监督式和分布式代理训练）中的优势。

Unveiling the Hidden Realm: Self-supervised Skeleton-based Action Recognition in Occluded Environments
Authors Yifei Chen, Kunyu Peng, Alina Roitberg, David Schneider, Jiaming Zhang, Junwei Zheng, Ruiping Liu, Yufan Chen, Kailun Yang, Rainer Stiefelhagen
为了将动作识别方法集成到自主机器人系统中，考虑涉及目标遮挡的不利情况至关重要。这种场景尽管具有实际意义，但在现有的基于自我监督骨架的动作识别方法中很少得到解决。为了赋予机器人解决遮挡问题的能力，我们提出了一种简单有效的方法。我们首先使用遮挡的骨架序列进行预训练，然后使用 k 均值在序列嵌入上对 KMeans 进行聚类，以对语义相似的样本进行分组。接下来，我们使用 K 最近邻 KNN 根据最近样本邻居来填充缺失的骨架数据。估算不完整的骨架序列以创建相对完整的序列作为输入，为现有的基于骨架的自监督模型提供了显着的好处。同时，在最先进的部分空间时间学习 PSTL 的基础上，我们引入了遮挡部分空间时间学习 OPSTL 框架。此增强功能利用自适应空间遮蔽 ASM 来更好地利用高质量、完整的骨骼。

Elevating Skeleton-Based Action Recognition with Efficient Multi-Modality Self-Supervision
Authors Yiping Wei, Kunyu Peng, Alina Roitberg, Jiaming Zhang, Junwei Zheng, Ruiping Liu, Yufan Chen, Kailun Yang, Rainer Stiefelhagen
用于人类动作识别的自监督表示学习近年来发展迅速。大多数现有作品都是基于骨架数据，同时使用多模态设置。

NeuralLabeling: A versatile toolset for labeling vision datasets using Neural Radiance Fields
Authors Floris Erich, Naoya Chiba, Yusuke Yoshiyasu, Noriaki Ando, Ryo Hanai, Yukiyasu Domae
我们提出了 NeuralLabeling，一种标签方法和工具集，用于使用边界框或网格来注释场景，并生成分割掩模、可供性图、2D 边界框、3D 边界框、6DOF 对象姿势、深度图和对象网格。 NeuralLabeling 使用神经辐射场 NeRF 作为渲染器，允许使用 3D 空间工具执行标记，同时结合遮挡等几何线索，仅依赖于从多个视点捕获的图像作为输入。为了演示 NeuralLabeling 对机器人实际问题的适用性，我们将地面实况深度图添加到 30000 帧透明物体 RGB 中，以及使用 RGBD 传感器捕获的放置在洗碗机中的眼镜的噪声深度图，从而生成 Dishwasher30k 数据集。

Reachability Analysis of ARMAX Models
Authors Laura L tzow, Matthias Althoff
可达性分析是计算系统可达状态或输出集的强大工具。虽然之前的工作主要集中在状态空间模型描述的系统上，但我们提出了第一种计算 ARMAX 模型可达集的方法，ARMAX 模型是源自数据驱动系统识别的最常见的输入输出模型之一。我们提出的第一种方法只能与保留依赖的集合表示（例如符号区域位）一起使用，而第二种方法对于任意集合表示有效，但依赖于 ARMAX 模型的重新表述。通过分析计算复杂性，我们表明，当使用符号区域时，两种方法都相对于可达性问题的时间范围呈二次方缩放。为了降低计算复杂度，我们提出了第三种方法，当使用在 Minkowski 加法和线性变换下闭合的集合表示时，该方法相对于时间范围线性缩放，并且满足 Minkowski 和的计算复杂度与表示大小无关的操作数。我们的数值实验表明，在初始状态未知的情况下，ARMAX 模型的可达集比等效状态空间模型的可达集更紧。

On-the-Fly SfM: What you capture is What you get
Authors Zongqian Zhan, Rui Xia, Yifei Yu, Yibo Xu, Xin Wang
在过去的几十年里，运动 SfM 结构在结构方面取得了丰硕的成果。然而，它们中的绝大多数基本上以离线方式工作，即首先捕获图像，然后将其一起馈送到 SfM 管道中以获得位姿和稀疏点云。相反，在这项工作中，我们提出了一种在图像捕获时运行在线 SfM 的即时 SfM，新拍摄的 On the Fly 图像使用相应的位姿和点进行在线估计，即，您捕获的就是您得到的。具体来说，我们的方法首先采用使用基于学习的全局特征进行无监督训练的词汇树，以对图像中新飞的图像进行快速图像检索。然后，提出了一种具有最小二乘LSM的鲁棒特征匹配机制来提高图像配准性能。最后，通过研究图像中连接的相邻图像中新飞的影响，使用高效的分层加权局部束调整BA进行优化。

MoPA: Multi-Modal Prior Aided Domain Adaptation for 3D Semantic Segmentation
Authors Haozhi Cao, Yuecong Xu, Jianfei Yang, Pengyu Yin, Shenghai Yuan, Lihua Xie
用于 3D 语义分割的多模态无监督域自适应 MM UDA 是一种实用的解决方案，可将语义理解嵌入自治系统中，而无需昂贵的逐点注释。虽然以前的 MM UDA 方法可以实现整体改进，但它们存在严重的类不平衡性能，限制了它们在实际应用中的采用。这种不平衡的性能主要是由于 1 使用不平衡数据进行自训练和 2 缺乏像素级 2D 监督信号造成的。在这项工作中，我们提出了多模态先验辅助 MoPA 域自适应来提高稀有物体的性能。具体来说，我们开发了基于有效地面的插入 VGI，通过插入先前从野外收集的稀有物体来纠正不平衡的监督信号，同时避免引入导致琐碎解决方案的人工伪影。同时，我们的 SAM 一致性损失利用 SAM 的 2D 先验语义掩码作为像素级监督信号，以鼓励对语义掩码中的每个对象进行一致的预测。然后，从模态特定先验中学到的知识可以跨模态共享，以实现更好的稀有对象分割。大量实验表明，我们的方法在具有挑战性的 MM UDA 基准上实现了最先进的性能。

Orbital AI-based Autonomous Refuelling Solution
Authors Duarte Rondao, Lei He, Nabil Aouf
由于其外形尺寸小且功耗、质量和体积成本低廉，相机正迅速成为太空交会机载传感器的选择。然而，在对接方面，它们通常扮演次要角色，而主要工作是由激光雷达等主动传感器完成的。本文记录了一种基于人工智能的人工智能导航算法的开发，旨在成熟使用机载可见波长相机作为对接和在轨服务 OOS 的主要传感器，减少对激光雷达的依赖并大大降低成本。具体来说，人工智能的使用可以将相对导航解决方案扩展到多种场景，例如，在目标或照明条件方面，否则必须使用经典图像处理方法逐案制作。多个卷积神经网络 CNN 主干架构以与国际空间站 ISS 对接操作的综合生成数据为基准，分别实现接近 1 范围归一化和 1 度的位置和姿态估计。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com