Hermit_Rabbit 个人主页

@lovely_yoshino

Hermit_Rabbit

2022-06-10 11:36:17 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

NavDP---扩散策略的深度代码精读

摘要： Jitendra Malik提出的"导航是否接近完成"引发了对AI导航技术发展矛盾的讨论：结构化场景中导航已较成熟，但动态复杂环境仍面临挑战。最新研究显示大模型在空间推理上与人类差距显著。NavDP（Navigation Diffusion Policy）通过扩散策略网络实现跨场景通用导航，其核心架构采用双头设计（轨迹生成与评估），结合扩散过程和多模态融合，在10步内完

#机器人 #人工智能

WoW: 通向全知世界模型的具身交互之路

WoW的核心是SOPHIA(Self-Optimizing Predictive Hallucination Improving Agent,自优化预测幻觉改进智能体)范式。这是一个闭环自优化框架,通过"预测-评估-优化"的迭代循环提升物理推理能力。范式代表模型核心思想物理理解闭环优化Diffusion噪声→图像的逆过程统计模式无JEPA预测latent表征抽象特征无SOPHIAWoW预测+评估+

#交互

robot_lab之scripts篇------issac lab时代适合四足的强化学习框架

摘要 robot_lab是一个基于IsaacLab的机器人强化学习扩展库，提供独立开发环境。核心功能包括：模块化架构：支持多种机器人类型（四足/轮式/人形）包含完整的MDP组件（奖励函数、命令生成、观测空间等）提供课程学习机制主要特性：内置Unitree和FFTAI系列机器人配置集成AMP工具和RSL RL框架支持实时控制演示和模型导出优势：独立于IsaacLab核心代码库开发

#人工智能

NavCoT：基于解耦推理的大语言模型视觉语言导航方法深度解析

摘要：视觉语言导航(VLN)要求智能体根据自然语言指令在三维环境中自主导航，是多模态智能的重要挑战。2025年IEEE TPAMI论文《NavCoT》提出创新性"导航思维链"方法，通过三步解耦推理（未来想象→视觉过滤→动作预测）提升大语言模型的导航能力。该方法将视觉信息文本化，让LLM先想象目标场景再匹配观测视图，最后决策动作，解决了传统方法存在的领域差距和黑箱决策问题。实验

#语言模型 #人工智能 #自然语言处理

从扩散模型到流匹配：π_RL如何突破视觉-语言-动作模型的强化学习困境

OpenAI的o1模型通过强化推理阶段算力提升逻辑能力，融合了蒙特卡洛树搜索(MCTS)、扩散模型和强化学习等技术。微软开源的rStar项目展示了MCTS在小语言模型中的纯推理优化应用，通过五种思维路径(A1-A5)构建搜索树：步步推理(A1)、一步到位(A2)、子问题分解(A3)、重新回答(A4)和问题改写(A5)。该框架将人类思维模式转化为prompt模板，在推理时通过搜索算法动态选择最优路径

#人工智能 #机器人

具身多模态大模型 (EMLM) 的崛起--感知、认知与行动的深度融合

近年来，大模型与多模态感知系统（如具身智体）的集成带来突破性模型的开发，这些模型能够处理日益复杂的任务。然而，具有大模型的具身智能领域仍处于早期阶段，仍存在一些挑战。这些包括增强模型的可扩展性和泛化能力，提高处理复杂任务的能力，以及提高具身智体与其环境更有效交互的能力。尽管该领域已经取得了重大进展，但目前关于 EMLM 的评论论文中仍然存在几个关键问题。首先，大多数现有评论主要关注自然语言处理中的

#机器人

基于NuScenes数据集构建高质量多模态VLM训练数据

NuScenes是一个由Motional（前身为nuTonomy）发布的自动驾驶数据集，包含1000个驾驶场景，每个场景20秒，共140万个3D边界框标注和1.4亿个3D点云点。该数据集提供了多种传感器数据，包括6个摄像头、1个激光雷达和5个雷达的数据，以及详细的3D对象标注。利用这一丰富的数据集，我们可以生成高质量的训练样本，帮助多模态LLM理解交通场景、识别道路上的各类对象，并进行准确的场景描

#机器人 #人工智能

VLA: 从具身智能到自动驾驶的关键桥梁

摘要：具身智能与自动驾驶共享相似的VLA（Vision-Language-Action）架构，均通过"感知-行动回路"实现环境交互。VLA技术源于机器人领域（如谷歌RT-2），通过多模态大模型将视觉理解映射为物理动作。自动驾驶因控制自由度较低（6DOF），其实现较机器人（35DOF）更简单。当前机器人VLA系统（如OpenVLA、Figure.AI的Helix）趋向快慢双系统

#自动驾驶 #人工智能 #机器学习

ROS Bridge 进行数据传输实战

在机器人系统的开发中，数据传输是一个关键环节。ROS (Robot Operating System) 提供了一个灵活的框架来实现不同组件之间的通信。ROS Bridge 是一个强大的工具，它允许通过 WebSocket 和 HTTP 协议与 ROS 系统进行交互，尤其适用于 web 应用和移动设备的集成。这里面我们之前在《》文章中介绍了ROS bridge。我们这篇文章则进一步给出实战代码。

#机器人

Qwen2 VL微调、缝合、强行回答等骚操作整理大全

摘要： UCloud旗下Compshare GPU算力平台提供高性价比的4090/3090云算力，支持灵活计费与独立IP，注册即赠20元算力金。重点介绍了Qwen2-VL多模态大模型的微调技术，包括其架构特点（支持多语言、多图输入、开放域定位）、硬件配置建议（显存优化方案）及部署流程。提供了从环境配置、模型下载到推理使用的完整指南，涵盖Web UI和代码调用两种方式，并推荐使用Compshare平

#chrome #ubuntu

共 400 条

请选择