虚拟机器人学习自然语言指令技术解析

具身人工智能（EAI）旨在训练具身代理在交互式模拟环境中解决涉及导航和物体操作的复杂多模态任务。开发此类具身代理需要长时程规划、视觉与语言基础理解，以及开发高样本效率算法。

codeshare1135

293人浏览 · 2025-10-07 20:05:58

codeshare1135 · 2025-10-07 20:05:58 发布

虚拟机器人学习自然语言指令技术解析

研究背景

DialFRED：对话增强的具身指令跟随

基准数据集

DialFRED是一个具身指令跟随基准，包含53,000个人工标注的对话，使代理能够：

与用户进行主动对话
利用对话信息更好地完成任务

该数据集的源代码和数据集已公开，鼓励研究人员提出和评估对话增强的具身代理。

数据收集方法

采用新颖、低成本、可扩展的数据收集方法，通过某众包平台实现：

向标注者展示任务视频演示
视频在每个子任务开始时暂停
标注者接收子任务指令并生成澄清问题
标注者观看下一段视频并提出问题答案

对话生成框架

DialFRED采用提问者-执行者框架构建具身对话代理：

提问者模型：

使用人工标注对话会话进行预训练
预测何时询问澄清问题
生成与给定情境相关的问题
通过强化学习微调，在适当时机提出合适问题

执行者模型：

利用问答信息（除原始任务指令外）
生成完成任务的动作序列

该框架在未见验证集上达到33.6%的成功率，相比被动跟随指令模型的18.3%有显著提升。

感知可用性多模态神经SLAM

技术突破

首次提出同时使用视觉和语言进行探索的感知可用性神经SLAM模型，解决了具身任务中的规划和导航瓶颈。

方法架构

对于给定任务T，方法分为两个阶段：

探索阶段：

代理在给定低级语言指令下探索环境
考虑先前探索动作和已访问观察区域
多模态模块选择三种动作之一：前进、左转、右转

执行阶段：

使用在探索期间获取的语义地图
规划模块处理导航子目标
对象交互变换器处理其他子目标

性能表现

在ALFRED基准测试中，相比先前工作实现超过20%的绝对改进，达到19.95%的最新泛化性能。

技术影响

这些创新方法显著降低了样本复杂度，实现了高效的长时程规划，并促进了视觉与语言的基础理解，为具身人工智能的发展提供了重要技术支撑。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）