logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ubuntu22.04安装anygrasp服务,完整全流程非常详细

在安装MinkowskiEngine时遇到CUDA13.0与GCC版本不兼容问题。服务器环境为CUDA13.0+PyTorch2.9.1,当前GCC版本13.0导致安装失败。解决方案是降级GCC至12.3.0版本,与CUDA13.0匹配。参考了相关GitHub issue和博客教程,通过调整GCC版本解决了安装错误问题。该问题主要源于CUDA与编译器版本间的兼容性要求。

#linux
详解RoboCOIN:面向集成化操作的开放式双臂机器人数据集

这篇论文提出了一个名为 RoboCOIN 的大规模、高质量、多模态数据集,专门用于训练和评估双臂机器人在复杂、长期、集成化操作任务中的能力。其核心目标是解决机器人学习领域缺乏能够支撑“闭环”任务(从感知到规划再到执行)的真实世界数据的问题。

文章图片
#机器人
BLIP和BLIP2解析

BLIP与BLIP-2是多模态视觉语言预训练模型,旨在解决视觉与语言对齐问题。BLIP通过统一编码器-解码器架构实现图文理解与生成,但存在端到端训练成本高的问题。BLIP-2引入轻量级Q-Former作为桥梁,采用两阶段训练策略:第一阶段通过对比学习、匹配任务和文本生成任务训练Q-Former提取关键视觉特征;第二阶段将Q-Former输出适配到冻结的大型语言模型(LLM),实现高效的多模态推理。

文章图片
#深度学习
AHA:生成机器人仿真数据集

摘要:开放世界环境中的机器人操作不仅需要执行任务,还需要在执行过程中检测故障并从中学习的能力。虽然视觉语言模型(VLMs)和大型语言模型(LLMs)的最新进展增强了机器人的空间推理和解决问题的能力,但这些模型往往难以识别和推理故障,限制了它们在现实世界应用中的有效性。通过将故障检测视为自由形式的推理任务,AHA识别故障并生成详细的解释,这些解释适用于模拟和现实场景中的各种机器人、任务和环境。

文章图片
#机器人
详解RoboCOIN:面向集成化操作的开放式双臂机器人数据集

这篇论文提出了一个名为 RoboCOIN 的大规模、高质量、多模态数据集,专门用于训练和评估双臂机器人在复杂、长期、集成化操作任务中的能力。其核心目标是解决机器人学习领域缺乏能够支撑“闭环”任务(从感知到规划再到执行)的真实世界数据的问题。

文章图片
#机器人
详解RoboCasa:通用机器人日常任务的大规模模拟

RoboCasa是一个大规模机器人日常任务仿真框架,专注于厨房场景。它基于RoboSuite构建,提供120个多样化厨房场景和2500多个3D资产,支持多种机器人形态。框架包含100个评估任务(25个基础原子任务和75个复合任务),并利用大语言模型辅助任务设计。通过人工演示和MimicGen工具生成了大规模训练数据集(含10万条合成轨迹)。实验表明,使用合成数据预训练能显著提升复杂任务的完成率。R

文章图片
#机器人
详解genmanip,生成桌面操作仿真数据

GENMANIP是一个基于LLM驱动的桌面仿真平台,用于评估指令跟随的机器人操作任务。其核心创新包括:1)构建大规模3D资产库(10K+带VL注释的物体);2)提出面向任务的场景图(ToSG)表示法,通过LLM自动生成多样化任务场景;3)开发模块化操作系统,整合视觉基础模型(如SAM、GPT-4V)进行目标定位、抓取规划和运动控制。实验表明,该系统能生成复杂的长时程任务(如"把红色杯子放

文章图片
#深度学习
一文搞懂ViT模型

ViT(Vision Transformer) 是一种将 Transformer 模型用于计算机视觉任务中的创新架构。ViT 只使用了 Transformer 的编码器 部分进行特征提取和表征学习。核心思想是将传统的(CNN)的卷积操作替换为 Transformer 的注意力机制,借鉴 Transformer 模型在自然语言处理(NLP)中的成功经验,用于图像分类任务。

文章图片
#transformer#计算机视觉#深度学习
RoboTwin 2.0:生成双臂机器人仿真数据

《RoboTwin 2.0:面向双臂机器人的仿真数据生成框架》摘要:该研究提出了一种创新性的仿真数据生成系统,通过多模态大语言模型和模拟反馈循环构建自动化专家数据生成管道。系统包含三大核心组件:1)集成视觉语言模型的闭环验证机制,确保生成高质量操作轨迹;2)覆盖语言指令、物体杂波等五维度的领域随机化方案;3)针对不同机器人硬件的自适应操作候选项模块。项目贡献了包含731个标注物体的资产库、超10万

文章图片
#机器人
transformer详解:原理和应用

Transformer 模型是一种基于注意力机制的深度学习模型,Transformer 彻底改变了自然语言处理(NLP)领域,并逐渐扩展到计算机视觉(CV)等领域。Transformer 的核心思想是完全摒弃传统的循环神经网络(RNN)结构,仅依赖注意力机制来处理序列数据,从而实现更高的并行性和更快的训练速度。

文章图片
#transformer#深度学习#人工智能
    共 16 条
  • 1
  • 2
  • 请选择