logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

VLA-RL:给AI模型装上“小脑”!让会思考的机器人,也能完美协调它的手

VLA-RL:基于强化学习的通用机器人操作框架 本文提出VLA-RL框架,通过强化学习优化预训练视觉-语言-动作(VLA)模型的性能。核心创新包括:1) 将机器人操作轨迹建模为多模态多轮对话的自回归训练方法;2) 开发机器人过程奖励模型(RPRM),利用伪奖励标签解决稀疏奖励问题;3) 系统性优化技术如课程选择策略、Critic预热和GPU平衡环境。实验表明,该方法使OpenVLA-7B在LIBE

文章图片
#人工智能#机器人
百度飞桨图像分类笔记

综述图像相比文字能够提供更加生动、容易理解及更具艺术感的信息,图像分类是根据图像的语义信息将不同类别图像区分开来,是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。图像分类在安防、交通、互联网、医学等领域有着广泛的应用。一般来说,图像分类通过手工提取特征或特征学习方法对整个图像进行全部描述,然后使用分类器判别物体类别,因此如何提取图像的特征至关重要。基于深度学习的图像分类方法,可以

文章图片
#深度学习
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集

《ToolVQA:真实场景下的多步工具问答新基准》 本文提出的ToolVQA数据集填补了当前工具增强视觉问答领域的空白,通过2.3万条真实图像样本和模拟人类推理的数据构建流程ToolEngine,建立了首个支持多步骤隐式推理的评估基准。该数据集包含10类工具和7个应用领域,平均每个问题需要2.78步工具调用。实验表明,经过ToolVQA微调的7B模型在测试集和多个分布外数据集上超越GPT-3.5-

文章图片
重磅!CoRL 2024顶刊会议 清华大学高阳研究组发布“基于大模型先验知识的强化学习”

不过研究人员也表示,当前RLFP框架仍依赖于人类工程来设计低层次技能和提示,并未真正完成自主生成的技能,此外,当前实验中使用的先验知识主要来自预训练的模型,并未打通网络端,在线获取或更新更加先进的知识。样本和函数复杂是制约强化学习在机器人交互当中的主要影响因素,在样本的获取方面,强化学习通常需要数百万次与环境的交互才能学会解决复杂任务,这在现实世界中是不切实际的。通过结合这些先验知识,RLFP框架

文章图片
#深度学习#机器人
NeurIPS 2024 | 机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%

针对该问题,来自中山大学和华为诺亚等单位的研究团队提出了一种全新的原语驱动的路径点感知世界模型,借助 VLMs 作为机器人的大脑,理解任务之间的动作关联性,并通过 “世界模型” 获取对未来动作的表征,从而更好地帮助机器人学习和决策。这样做有几个好处:它使得模型可以更好的学习任务与动作之间的内在关联性,减少其他干扰因素的影响,并更好地捕捉不同任务之间的相似性(例如,拧瓶盖和拧螺丝的动作是相似的,拿杯

文章图片
#机器人#人工智能
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集

《ToolVQA:真实场景下的多步工具问答新基准》 本文提出的ToolVQA数据集填补了当前工具增强视觉问答领域的空白,通过2.3万条真实图像样本和模拟人类推理的数据构建流程ToolEngine,建立了首个支持多步骤隐式推理的评估基准。该数据集包含10类工具和7个应用领域,平均每个问题需要2.78步工具调用。实验表明,经过ToolVQA微调的7B模型在测试集和多个分布外数据集上超越GPT-3.5-

文章图片
字节跳动研究人员提出机器人大模型GR-2,具备世界建模和强大泛化能力

在 7 亿参数规模的验证中,团队看到了令人鼓舞的结果:更大的模型不仅能够处理更多复杂的任务,而且在泛化到未见过的任务和场景时也表现得更加出色。我眼里有活儿更让人惊艳的是,GR-2 还能够与大语言模型相结合,完成复杂的长任务,并与人类进行互动。这种能力,不仅提升了 GR-2 动作预测的准确性,也为机器人的智能决策提供了新的方向。除了能够处理多达 100 余种不同的物体,例如螺丝刀、橡胶玩具、羽毛球,

文章图片
#机器人
乔红院士发布:2025具身智能机器人十大发展趋势!

《2025具身智能机器人十大发展趋势》提出技术融合与创新方向:1)物理实践、模拟器与世界模型协同驱动感知;2)多模态大模型启发的智能决策;3)融合模型预测、强化学习与生命科学的控制方法;4)生成式AI驱动的机器人设计优化;5)软硬件高度协同开发;6)仿真环境下的机器人快速研发;7)构建高质量数据集;8)发展人机协同与集群智能;9)建立跨学科开源社区;10)完善安全评估与伦理规范。这些趋势将推动具身

文章图片
#机器人
PRCV 2024 - Day3

王院士在报告中分析了大模型驱动的人形机器人技术进展,介绍了人形机器人研究背景与意义、国内外研究现状、大模型驱动的人形机器人关键技术,如大型自然语言模型、多模态视觉语言模型、具身智能多模态大模型等,以及发展趋势与展望,并举例介绍了具身智能人形机器人是国际公认的机器人技术集大成者和科技竞争的制高点,可推广应用于工业制造、国防安全、智能服务和智慧医养等行业,具有广阔的前景和巨大的潜力。人工智能的发展和应

文章图片
    共 103 条
  • 1
  • 2
  • 3
  • 11
  • 请选择